预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共62页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

线性相关与回归简单(jiǎndān)线性相关与回归多重线性回归Spearman等级相关 线性相关与回归(huíguī) 内容: 多重线性回归分析 简单线性相关与回归 Spearman等级相关(一)直线(zhíxiàn)回归(linearregression)/:是Y(实测值)的预测值(predictedvalue),是直线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。2.b和a的意义(yìyì)4.b的假设检验:b为样本(yàngběn)回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归系数是否为0。5.直线(zhíxiàn)回归方程的置信区间估计1.定义 描述具有直线关系的两个变量(biànliàng)之间的相互关系。2.相关(xiāngguān)类型零相关(xiāngguān)r=0r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间是否存在相关性,需要检验(jiǎnyàn)总体相关系数是否为0。4.相关与回归(huíguī)的区别和联系(4)可以用回归解释(jiěshì)相关例1为研究中年女性体重指数和收缩压的关系,随机(suíjī)测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。 变量说明:X:体重指数;Y:收缩压(mmHg)。例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(shùjù)(见数据(shùjù)文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。数据文件reg.sav 1.如何估计自变量与因变量之间的相互关系?(估计回归方程) 2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对(xiāngduì)重要性分析) 4.如何用自变量预测因变量?(预测分析)(二)多重回归分析(fēnxī)的适用条件关于独立性: 所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序列、重复测量(cèliáng)等情况。 SPSS软件在“LinearRegression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的。1.如何估计自变量与因变量之间的相互(xiānghù)关系?(估计回归方程)模型(móxíng)拟和的优良性指标2.哪些自变量对因变量有影响?(影响因素(yīnsù)分析)自变量的筛选(shāixuǎn)3.哪一个自变量对因变量的影响更重要?(自变量的相对(xiāngduì)重要性分析) 当自变量的量纲不同时,衡量自变量相对重要性的指标: 标准化偏回归系数(Standardizedregressioncoefficient)、偏相关系数(PartialCorrelation)和部分相关系数(PartCorrelation)。上述(shàngshù)指标的绝对值越大,则相应自变量对因变量的影响就越大。 标准化偏回归系数:对自变量、因变量作标准化处理(chǔlǐ)后计算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。4.如何用自变量预测(yùcè)因变量?(预测(yùcè)分析)1.自变量与因变量之间存在(cúnzài)线性关系 通过标准化残差(StandardizedResiduals)、学生(xuésheng)氏残差(StudentlizedResiduals)来判断强影响点。当指标的绝对值大于3时,可以认为样本存在强影响点。 删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。5.自变量之间不应存在(cúnzài)共线性(Collinear)共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。 2.VIF(方差膨胀因子,VarianceInflationFactor,VIF)