预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共81页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

相关分析与回归分析第一节相关关系 变量之间的关系,一般可以分为两大类: 一类是变量之间有确定性的关系,例如:圆的面积与其半径之间的关系为:s=πr2,当有一个确定的时,对应的变量也是一个确定的值. 另一类是变量之间存在一定的制约关系,但这种关系没有密切到可由一个决定另一个的程度.例如:受教育的年限和工资之间的关系:一般的,受教育年限较长的人,工资也较高,但并非对每个人都适用;又如产品的产量与价格之间的关系;人的身高与体重之间的关系都是如此,我们认为这些成对变量之间有一定的关系,但由其中的一个不能确定另一个,我们称这样的关系为“相关关系”.变量间的关系“相关关系”的产生一般可有以下几种情况: 1.变量之间有严格的确定性关系,但由于测量误差(误差是随机性的)使测量结果之间呈现出相关关系. 2.两个变量X、Y(也可以是多个变量)之间存在着因果关系,但影响Y的原因可能有很多,X只是其中的一个,它只能对Y的值起作用,并不能决定Y.因此X、Y之间的关系必然是相关关系. 3.变量表面上看有一定的关系,但它们可能都受另一个因素的影响,而这个因素与所考察的变量之间存在着相关性. 我们在研究实际问题中,以上各种情况都应该考虑到.不同的情况,对数据的统计分析方法和结果的解释都会有一定的影响.在统计学中研究相关关系已形成了两个重要的分支,即相关分析和回归分析.在应用中,两种方法经常相互结合渗透,但它们研究的侧重点和应用面不同,差别主要有:回归分析中变量Y称为因变量,处于被解释的地位;在相关分析中,变量X、Y处于平等的地位,即研究X、Y的密切程度同研究X、Y之间的密切程度是一回事.相关分析中所涉及的变量X、Y都是随机变量;而回归分析中,因变量Y是随机变量,自变量X可以是随机变量,也可以是非随机的确定性变量.通常的回归模型中,我们总假定X是非随机变量;相关分析的研究主要是为刻画两类变量间线性相关的密切程度.而回归分析不仅可以揭示变量X对变量Y影响的大小,还可以根据回归方程进行预测和控制.“回归”一词的历史渊源 “回归”一词最早由FrancisGalton引入。英国著名人类学家FranicsGalton(1822-1911)于1885年在论文《身高遗传中的平庸回归》中阐述了他的重大发现:子代的身高有向平均值靠拢的趋向。因此,他用回归一词来描述子代身高与父代身高的这种关系。随后,英国著名统计学家K.Pearson等人搜集了上千家庭成员的身高数据,分析出儿子的身高y与父亲的身高x大致可归结为一下关系: y=0.516x+33.73(单位为英寸) 从而进一步证实了Galton的“回归定律”。这就是回归一词最初在遗传学上的含义。回归的现代意义: 它要比其原始意义广泛的多。具体地说,回归分析的内容包括: 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式); 根据样本估计并检验回归模型及未知参数; 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的; 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。第二节回归分析二、确定回归函数的方法 实际中,回归方程是未知的,需要由试验或观察数据去估计它.设有n次试验(或有n个观察),第i次试验中X,Y的取值分别是xi和yi(i=1,2,…,n).然后利用这些数据对回归方程f(x)进行估计. f(x)具体的选择形式,可以根据所讨论问题的专业知识和对问题的了解程度出给出.但在更多的情况下我们是借助于所考察数据在直角坐标系中绘出的n个样本点(xi,yi)(i=1,2,…,n)的走向得到启示.这样的图我们称为“散点图”.根据回归函数的意义,当X取xi时,Y的期望值应为f(xi),由于随机误差,观察值yi与f(xi)之间有一定的差距,即:第三节一元线性回归175cm二、回归系数a,b的估计方法(最小二乘法)最小二乘法: 方法是德国数学家高斯在1799~1809年间发展起来的,是应用数学中重要的方法.其主要方法是任意作一条直线y=c+dx(如图).则样本点(xi,yi)与此直线的偏离可以用该点沿y轴方向到此直线的距离来衡量。 n个点与y=c+dx的偏离值的平方和记为Q,则通过该式求得使Q达到最小时的c,d值,令,称为回归系数的最小二乘估计,即对任何的c,d都有:由二元函数求极值的方法,求出Q对c,d的偏导数,并令它们等于零.即:引进符号:例1考虑家庭月收入X(元)及月支出Y(元)的关系,我们抽取10个家庭,调查了其月收入和月支出的数据如下:dataabc; inputxy; cards; 15020.9 17522.1 20024.4 22526.1 25027.3 27529.2 30030.3 3