预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

广义线性模型(九)77 文章编号:1002—1566(2004)01—0077—04 广义线性模型(九) 陈希孺 (中国科学院研究生院,北京100039) 摘要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析与 模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的《MultivariateStatisticalMod2 elingBasedonGeneralizedLinearModels》。 关键词:广义线性模型;建模;统计分析;模型选择和诊断 中图分类号:O212文献标识码:A GeneralizedLinearModels CHENXi2ru (GraduateschoolofChineseacademiaofscience,Beijing100039,China) Abstract:Thissetofarticlesgivesanintroductiontogeneralizedlinearmodels.Theycanbedividedintothreeparts; Modelbuilding,statisticalinferenceandModeldiagnostics.ThepresentationismainlybasedonL.Fahrmeiretal. 《MultivariateStatisticalModelingBasedonGeneralizedLinearModels》. Keywords:generalizedlinearmodels;modelbuilding;statisticalinference;modeldiagnostics 3.2模型选择 (一)从若干个备选模型中选取一个 模型选择包含以下一些方面 ·因变量Y分布的选择; ·联系函数的选择; ·自变量的选择; ·z(x)的选择。 先谈第一个问题。对两点分布(Y取0,1二值)或取多个状态之一的情况,分布自然决 定,无选择问题。对稍复杂一点的情况就有选择问题。例如Y取0,1,⋯,m等m+1个值 (注意:单变量取有限个值———如m个服药的人中有效的个数———与取有限个状态之一(如考 试结果有优、良、中、差4个状态)不能混淆。后者当转到哑变量时为多维的),就有一个是否取 二项分布为模型的问题,例如当怀疑有“超散布性”存在时,对可以取整数值0,1,⋯的变量,有 是否选Poisson分布为模型的问题等等。 联系函数的选择,是选h(z′(x)β)的形状,还是h(x,β)的一般形状。若是前者,h如何 选,是选自然联系函数,或其他形式? 自变量的选择,更多的是从实际及专业的角度考虑:从专业或经验的角度看,那些变量对 目标Y有重要的影响?当可能的候选者太多而希望从中挑出为数不多的最有影响的变量时, 除专业的考虑外,也有些统计方法。 87中文核心期刊数理统计与管理23卷1期2004年11月 至于z(x)选择,主要也应从实际及专业的角度考虑。涉及的问题主要是:z(x)中是只包 含主要效应(x1,x2,⋯等的线性项),还是要包括某些交互效应(形如xi,xj的项)。对前两个选 择问题,一般选择的对象有限。基本的做法是比较其Pcarson统计量或deviance,选其小者。 如例1.7,3个备选的联系函数,其p值分别为0.15—0.16,0.67—0.70,0.09—0.10。前两个 都可考虑,如纯从p值考虑,当然是选分组Cox。 后两个选择问题在处理上是统一在一起考虑的,即把备选的交互作用也当作一个自变量 去处理。例如,设有自变量x1,x2,x3,而备选的(有可能进入模型的)交互作用有x1x2和 x1x3,则问题中有5个“自变量”:x1,x2,x3,x1x2,x1x3。换言之,向量z(x)的各分量为自变 量。 (二)自变量选择 仍统一以x=(x1,⋯,xm)′记自变量。如上文所述,有些xj可能是原始自变量的交互作 用。 常用的挑选自变量的方法有向前法、向后法与逐步法。 向前法是逐步增加,从开始只包含常数项出发,设在某个时候已有x1,⋯,xr被选入,尚 有xr+1,⋯,xm待选。把包含自变量xi,⋯,xi的模型记为MO(i1,⋯,ik),此模型的对数似 1k 然函数最大值记为l(i1,⋯,ik)。如果在x1,⋯,xr的基础上加进xj(j=r+1,⋯,m)则将 有: Δ αj=l(1,⋯,r,j)-l(1,⋯,r)E0 (因为变量多了,求最大值时范围扩大,最大值只能上升而不能下降)容易看出αj也是MO(1, ⋯,r)的deviance与MO(1,⋯,r,j)的deviance之差。αj愈大,表示因xj的加入,模型的de2 viance缩小愈多,即模型与数据拟合程度的改善愈多,因而就愈