预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

广义线性模型(二)75 文章编号:1002—1566(2002)06—0057—07 广义线性模型(二) 陈希孺 (中国科学院研究生院,北京100039) 摘要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析 与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的《MultivariateStatistical ModelingBasedonGeneralizedLinearModels》。 关键词:广义线性模型;建模;统计分析;模型选择和诊断 中图分类号:O212文献标识码:A §1.2多维广义线性模型 (一)定义 在§1.1中我们见过几种目标变量Y取值的情况:1.连续取值,如人的身高、元件的寿命 之类。2.取离散值,但仍有数量意义,如“受感染的细胞数”取0,1,2,⋯用Poisson分布描述。 m个患者中痊愈的个数,取0,1,⋯,m为值。3.变量为属性,但只有两个状态,如“产后感染 或否”,用0—1变量描述,0,1无数量意义,只指示有无。 以上这些情况都可以用一个单变量描述之,其统计模型取为单参(数)指数型分布。另有 一些情况,其目标变量Y须取为向量的,如Y=(Y(1),Y(2))=(身高,体重)。这种取连续向 量值的目标变量,如用多元正态为统计模型,得到熟知的多重线性回归。除此以外,还有一种 重要情况:Y取k个“状态”之一,kE3。如在例1.1中,感染可分2种类型,于是每个产妇处 在3个状态之一:无感染、Ⅰ型感染、Ⅱ型感染。它当然可用0,1,2这3个数字标识,因此可能 会认为,此例中的目标变量Y只取3个值0,1,2,非向量。但这一看法是错误的,因为此处0, 1,2并无数量意义,只是一种“标签”。正确的做法是如§1.1(二)中那样引入“哑变量”Y(1), ⋯Y(q),q=k-1: 1,若Y取状态j Y(j)=,j=1,⋯q(1.38) 0,其它 而把目标变量Y定为Y=(Y(1),⋯Y(q))'。它共取k个值: a1=(1,0,⋯,0);⋯;aj=(0,⋯0,1,0⋯0);⋯;ak=(0,⋯0) “Y=aj”Z“取状态j”,j=1,⋯,k。 k 一般,设目标函数Y为q维:Y=(Y(1),⋯Y(q)),它取值于R中的一Borel集A。应用 上A有两个情况:1.离散情况,A为一有限或可列集。如在上例有A={a1,⋯,ak} 2.连续情况,A为Rk中一区间,即形如 A={(t1,⋯,tq):aj<tj<bj,j=1,⋯,k} 之集。不等号也可改为等号(全为不等号称开区间,全为等号称闭区间,左端全为等号右端全 为不等号称左闭右开区间等等,aj可取为-∞,bj可取为∞,于是有有界区间及无界区间之分 85中文核心期刊数理统计与管理21卷6期2002年11月 别)与1维广义线性模型相似,多维广义线性模型的一个要素是:Y有指数型分布: c(y)exp(θ′y-b(θ))dμ(y),θ∈Θ(1.39) θ=(θ(1),⋯,θ(q))为q维参数向量。θ与模型中一些有实际意义的参数相关联(见例1.5), 因 c(y)exp(θ′y-b(θ))dμ(y)=1(1.40) ∫A 在积分号下对θ求导,易得 ′ 9b(θ)9b9b μ>EY=‰b(θ)>=,⋯,(1.41) 9θ9θ19θq 二次求导,得 θ2 ≈θ9b()9b COV(Y)=b()>′=θθ(1.42) 9θ9θ9i9ji,j=1,⋯,q 另一个要素是联系函数。设有自变量x(向量),它影响目标变量Y的取值,由x产生q×p 矩阵z=z(x)。例如,在x的多项式回归中,z包含x各分量的一些幂次以及交互乘积等,而 β为p维未知参数。记 η=zβ(1.43) 定义集合 ′ B={μ∶μ=yc(y)exp(θy-b(θ))dμ(y),θ∈Θ}(1.44) ∫A 即Y的一切期望值之集。联系函数g是一个定义于B上取值为Rq的充分光滑的函数,满足 条件: μ1≠μ2]g(μ1)≠g(μ2)(1.45) g(μ)=η=zβ(1.46) 有 μ=EY=h(zβ)(1.47) 注意g,h和zβ都是q维列向量。 3) 若有了样本(yi,xi),1FiFn,相应有zi>z(xi)及ηi=zβi,以及(μi=Eyi) -1-1 θi=‰b(μi)=‰b(h(zβi))(1.48) 3)注意y(i)与yi的分别,y(i)是Y的第i个分量,为1维;yi是Y的观测值,为q维,以后都 坚持这个写法。 得(y1,⋯,yn)的联合密度 nnn -1-1 Πc(yi)expΣyi′‰b(h(zβi))-Σb(‰b(h(zβi)))(1.49) i=1i=1i=1 利用它可以对未知参数β进行统计推断。 关于在同一自变量x值下一些Y值之和