预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共49页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

对数线性模型和SPSS操作高维列联表和多项分布对数线性模型多项分布对数线性模型多项分布对数线性模型多项分布对数线性模型注意,无论你对模型假定了多少种效应,并不见得都有意义;有些可能是多余的。本来没有交叉影响,但如果写入,也没有关系,在分析过程中一般可以知道哪些影响是显著的,而那些是不显著的。Poisson分布简介在某些固定的条件下,人们认为某些事件出现的次数服从Poisson分布,比如在某一个时间段内某种疾病的发生病数,显微镜下的微生物数,血球数,门诊病人数,投保数,商店的顾客数,公共汽车到达数,电话接通数等等.然而,条件是不断变化的.因此,所涉及的Poisson分布的参数也随着变化.Poisson对数线性模型SPSS中一共提供了对数线性模型的三个过程:General过程、Logit过程和ModelSelection过程,三者都应用对数线性模型的基本原理,但在具体的拟和方法和结果输出上有些不同,分别用于不同的研究情况。 General过程适用于研究人员只对某些特定效应项感兴趣的情况,属于证实性研究。General过程的另外一个特点是,分析中只考虑因素之间是否相关,不考虑谁是原因谁是结果,最后在结果解释时才由研究人员来做出判断。 如果因变量为两分类,就可以用Logit过程提供的Logit模型来分析。相比之下,它比另两个模型更像方差分析,明确分出了应变量和自变量,直接服务于分类变量之间的因果关系。 ModelSelection过程拟合的是分层对数线性模型(HierarchicalMode)。如果在探索性分析中研究人员只是设想若干分类变量之间可能有关系,但是并无明确假设,也没有具体分出哪个是因变量、哪个是自变量,此时比较适宜采用分层对数线性模型分析。对数线性模型-General模型可以认为用内科疗法治疗两种胃溃疡病人所得的治愈率是不同的。 一般类型病人的治愈率高于特殊类型,或者可以说,治愈率和组别与治疗结果两个因素有关,对单元格频数的作用存在交互作用。结果分析:输出的分别是4个系数的协方差矩阵和相关系数矩阵。作为参照水平的参数(都赋值为0)没有列出。 再次提醒:由于拟合的是饱和模型,故所有的残差均为0,因此没有输出与残差有关的图形。如果选择Custom模型,分析group和result两个因素的Maineffect,不包含两者的交互效应,结果会怎样?4个单元格的观察频数、期望频数和校正残差的散点图矩阵。 上排中间的格子是指以期望频数横坐标、实际频数为纵坐标的散点图; 第二排左边的散点图是以实际频数为横坐标、期望频数为纵坐标。 如果把这两个图作一定的旋转,就会发现它们是完全一样的。 从观察频数和校正残差的散点图可看出,4个散点明显存在着一定的趋势,这说明残差不服从正态分布,所拟合的模型尚不能完全解释4个格子频数的分布规律,可能还有有意义的变量未被纳入(实际上就是交互项未被纳入)。校正残差的正态Q-Q图和去势正态Q-Q图,可见虽然只有4个格子的残差,但明显存在着一定趋势,结论和前面相同。Poisson回归模型例:现收集了某一年代英国男性医生冠心病死亡与抽烟关系的年龄分组数据。请推断英国男医生冠心病死亡与抽烟、年龄是否有关?注意由于死亡与追踪人数和追踪时间均有关,故对人数进行了校正,实际上是用经过校正的观察人数作为观察单位。 由于冠心病并非传染病,且在人群中的病死率较低,因此可以认为死亡人数服从Poisson分布。 在清楚了模型的基本结构后,本例的操作就不再困难了,唯一比较特殊的是由于各年龄组的观察人数不同,需要在CellStructure框中加以设定。首先对死亡数died进行加权。模型的参数估计值,由于Poisson回归模型都是对前瞻性研究数据进行拟合,因此可以通过对事件发生率(此处为死亡率)的比较计算出相对危险度。 本例的结果:和抽烟者相比,不抽烟者的死亡风险较低,其RR为exp(-0.5)=0.6060。而随着年龄的增加,死亡的风险也在逐渐上升,和35岁组(编码为1)相比,65岁组(编码为4)的RR值为exp(3.338)=28.163。对数线性模型-Logit模型例:要研究两种手术后并发症的严重程度与手术类型是否有关,在甲乙两个医院各观察70、54例子术病人。首先应当使用WeightCases过程,将count指定为频数变量。SPSS12之后新增的输出,用于给出反应模型的解释度,它类似于回归模型中的决定系数,具体以熵(Entropy)或集中度(Concentration)来计算。 以熵为例,可见数据的总熵为83.613,其中被模型解释掉了2.916,因此通过熵测得的模型解释度为2.916/83.613=0.035。 但是,由于这里拟合的是分类数据的模型,因此解释度指标只是近似的反映了模型的效果,就如同Logistic模型中的伪