预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共73页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第七章相关分析和线性回归分析一、相关分析和回归分析概述事物之间的函数关系比较容易分析和测度,而统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各异。相关分析和回归分析正是以不同的方式测度事物间统计关系的非常有效的工具。二、相关分析(二)散点图散点图的基本操作练习相关系数相关系数r对样本来自的两个总体是否存在显著的线性关系进行推断基本步骤Pearson简单相关系数Spearman等级相关系数Kendall’s系数前提: 正态分布:皮尔逊积矩相关只适用于双元正态分别的变量。如果正态分布的前提不满足,两变量之间的关系可能属于非线性相关。 样本独立性:被试必须来自于总体的随机样本,且被试之间必须相互独立。 替换极值:变量中的极端如极值、离群值对相关系数的影响较大,最好加以剔除或代之以均值或中数。练习三、偏相关分析偏相关也称净相关,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数。 控制变量数为1时,偏相关系数称为一阶偏相关;当控制两个变量时,称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是相关系数。如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。 偏相关分析即衡量两变量之间的关系,使与这两变量有关的其他变量都保持不变。这样可以判断哪些自变量对因变量的影响较大。 中介变量假设模型:两个变量相关显著的原因在于变量A通过中介变量影响了变量B。在排除了中介变量的效应后,两个变量的相关系数应为0。步骤练习线性回归分析回归分析与相关分析的关系一些概念获得回归线通常采用的两种方法回归分析的一般步骤确定回归模型建立回归方程对回归方程进行各种检验利用回归方程进行预测步骤线性回归模型一元线性回归模型多元线性回归模型多元线性回归的条件多元回归方程中的自变量选择2、后退法(Backward),将已纳入方程的变量按对因变量的贡献大小由小到大依次剔除,每剔除一个自变量,即重新检验每一自变量对因变量的贡献。 3、前进法(Forward),对已纳入方程的变量不考察其显著性,直到方程外变量均达不到入选标准。 4、强制剔除法(Remove)与后退法相同,只是筛选的是Block5、逐步回归法(Stepwise),运用很广,报告中出现的几率最高。结合了前进法和后退法的优点。第一,模型中先不包含任何预测变量,与因变量相关最高者首先进入回归方程;第二,控制回归方程中的变量后,根据每个预测变量与因变量的偏相关的高低来决定进入方程的顺序;第三,已进入方程的自变量,每引入一个自变量,就对方程中的每一自变量进行显著性检验,若发现不显著,就剔除;每剔除一个自变量有也对留在方程中的自变量再进行显著性检验,再不显著,又剔除,直至没有自变量引入,也没有自变量剔除为止。在选择回归的方法时,注意专业上的要求要先于统计学检验的准则。 Hower(1987)建议:(1)应优先使用enter或stepwise。(2)使用enter时,可根据研究计划时的相关理论,决定变量投入的顺序。回归方程的统计检验回归方程的拟合优度检验拟合优度检验采用R2统计量,该统计量称为判定系数或决定系数,它是SSA/SST 反映因变量的全部变异中能够通过回归关系被自变量解释的比例,即检验回归的效果如何。 如果自变量的个数很多,有时要以调整后的决定系数代替原先的决定系数。因为增加新的自变量会使决定系数增大,这种决定系数会有高人为控制的机制在内,此时用调整后的决定系数更好。回归方程的显著性检验回归系数的显著性检验t统计量:在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相互代替,同时回归方程显著性检验中F=t2。 但在多元线性回归中的这两种检验通常不能互相替代。残差分析如何看回归结果?回归分析的三个重要指标练习虚拟变量如性别变量有男或女两类,可将两个类别分别以两个0/1二值变量的形式重新编码。设置变量X1表示是否男,取1表示男,取0表示不是男。再设置变量X2表示是否女,取1表示是女,取0表示不是女。 产生的回归方程中各虚拟变量回归系数的含义是,相对参照类,各个类对解释变量平均贡献的差,进而可进一步研究各类别间对被解释变量的平均贡献差异。Collinearitydiagnostics(共线性诊断)自变量间是否有共线性问题,可以由以下数据判断:(3)条件指针(conditionindex,CI),CI越大,越有共线性问题。Eigenvalueconditionindex(k)若k2>=100表示存在复共线,若k2>=1000,表示存在严重的复共线。 关于复共线问题,也有说法,即认为若torrence降至0.5以下,而VIF上升到2