预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

相关分析与回归分析-- 第二讲相关分析与回归分析 第一节相关分析 1.1变量的相关性 1.变量的相关性分两种,一种是研究两个变量X与Y的相关性。本节只研究前者,即两个变量之间的相关性;。 2.两个变量X与Y的相关性研究,是探讨这两个变量之间的关系密切到什么程度,能否给出一个定量的指标。这个问题的难处在于“关系”二字,从数学角度看,两个变量X、Y之间的关系具有无限的可能性,一个比较现实的想法是:确立一种“样板”关系,然后把X、Y的实际关系与“样板”关系比较,看它们“像”到了什么程度,给出一个定量指标。 3.取什么关系做“样板”关系?线性关系。这是一种单调递增或递减的关系,在现实生活中广为应用;另外,现实世界中大量的变量服从正态分布,对这些变量而言,可以用线性关系或准线性关系构建它们之间的联系。 1.2相关性度量 1.概率论中用相关系数(correlationcoefficient)度量两个变量的相关程度。 为区别以下出现的样本相关系数,有时也把这里定义的相关系数称为总体相关系数。可见相关系数是判断变量间线性关系的重要指标。 2.样本相关系数 我们也只能根据这个容量为n的样本来判断变量X和Y的相关性达到怎样的程度。 这个估计称为样本相关系数,或Pearson相关系数。它能够根据样本观察值计算出两个变量相关系数的估计值。 和总体相关系数一样,如果,称X和Y不相关。这时它们没有线性关系。 多数情况下,样本相关系数取区间(1,1)中的一个值。相关系数的绝对值越大,表明X和Y之间存在的关系越接近线性关系。 1.3相关性检验 两个变量X和Y之间的相关性检验是对原假设 H0:Corr(X,Y)=0 的显著性进行检验。检验类型为t。如果H0显著,则X和Y之间没有线性关系。 1.4计算样本相关系数Correlate\Bivariate 例1数据data02,计算变量当前薪金、起始薪金、受教育年限和工作经验之间的样本相关系数。 打开Correlate\Bivariate对话框,将变量salary、salbegin、educ和prevexp输入Variables,点击OK,即得表格: 表格中的PearsonCorrelation指样本相关系数,例如起始薪金与受教育年限的相关系数为0.633;Sig.为相关性检验结果,起始薪金与受教育年限的相关性检验结果为Sig.=0.000,在0.05和0.01的水平下,都能否定它们不相关的假设。N为观察值个数。 1.5偏相关系数 1.控制变量以上在计算变量X和Y的相关系数时,并没有考虑有其他变量的影响。例如:计算当前薪金(salary)与起始薪金(salbegin)的相关系数得0.890,但是当前薪金显然还受到受教育年限(educ)的影响,这个影响在计算相关系数时没有被扣除,因此0.890这个数字不完全真实。如扣除educ的影响,在计算salary和salbegin的相关系数,就更接近真实了。这个被扣除的变量就叫控制变量,这里educ便是控制变量。控制变量可以不止一个。 2.偏相关系数扣除控制变量影响后得到的相关系数称为偏相关系数(partialcorrelation),计算命令为:Correlate\Partial. 例2数据data02,计算当前薪金与起始薪金在扣除受教育年限影响后的偏相关系数。 在PartialCorrelations对话框中,将变量salary、salbegin输入Variables,将变量educ输入Controllingfor,然后OK,得: 其中Corrlation指偏相关系数,df自由度,Significance是对原假设H0:pCorr(X,Y)=0检验结果得到的水平值。可见:偏相关系数值等于0.795;不能接受不相关的假设。 第二节线性回归方程 2.1一元线性回归方程 1.相关分析是以线性关系为“样板”,讨论变量X和Y的相关程度,这一程度用相关系数表示。我们不禁要问:这个“样板”是什么?也就是把这个做“样板”的线性表达式: 给出来,这也就相当于把系数b0和b1估计出来。这样,变量X和Y的关系就可以表示成为: 其中为误差,是一个随机变量。显然,相关系数绝对值越大,误差在表达式中占的比重就越小,也就是线性部分占的比重越大,这就有可能用线性表达式(1)近似表达变量X和Y的关系。称线性表达式(1)为变量Y对于X的(一元线性)回归方程。 回归分析的主要任务是回答: 1)回归方程(1)能否近似代表变量X和Y的关系。这实际是对线性部分与误差部分各占比重的估量; 2)怎样估计回归方程(1),也就是怎样估计参数b0和b1。 显然,在任务2)完成前,任务1)无从开始。 2.回归的基本假设 解决回归分析的主要任务还是要从样本: 入手。套用(2),样本(3)可以写成: