预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共118页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Logistic回归分析如二项分类,如某种疾病的患病与否某一治疗结果有效和无效器官移植后生存或死亡多项有序分类:某一治疗结果,治愈、显效、有效、无效;多项无序分类:肝炎分型甲、乙、丙、丁、戊研究分类反应变量与多个影响因素之间的相互关系的一种多变量分析方法,进行疾病的病因分析。Logistic回归的分类Logistic回归二分类有序反应变量多分类无序反应变量非条件1:1配对资料条件Logistic回归1:m配对资料m:n配对资料一、Logistic回归方程Logistic回归的logit模型(1)取值问题(2)曲线关联反应变量与自变量的关系通常不是直线关系,而是S型曲线。曲线回归时,往往采用变量变化,使得曲线直线化,再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年,COX引入了用于人口学领域的Logit变换。什么叫Logit变换?通常把出现某种结果的概率与不出现的概率之比称为比值Odds=P/1-P,将其纳入对数=Ln(P/1-P)概率P是以0.5为对称点,分布在0~1的范围内的,而相应的Logit(P)的大小为P=0Logit(P)=Ln(0/1)=-无穷大P=0.5Logit(P)=Ln(0.5/0.5)=0P=1Logit(P)=Ln(1/0)=+无穷大Logit(P)取值范围扩展为(-,+-)Logit变换也称对数单位转换logitP=二、参数估计1、回归系数的估计:最大似然估计法(Maximumlikehoodestimate)最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值(使得一次抽样中获得现有样本的概率为最大),所得到的估计值称为参数的最大似然估计值。三、参数检验比分检验(scoretest)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。Wald检验(waldtest)即广义的t检验,统计量为uu服从正态分布,即为标准正态离差。Logistic回归系数的区间估计上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。四、回归系数的意义流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数Odds=P/(1-P)比数比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势(odds),logitP就是odds的对数值。优势比常把出现某种结果的概率与不出现的概率之比称为比值(odds),即odds=p/1-p。两个比值之比称为比值比(OddsRatio),简称OR。Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummyvariable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,e(bi)表示xi增加一个等级时的优势比,e(k*bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。分析因素xi为连续性变量时,e(bi)表示xi增加一个计量单位时的优势比。多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比e(bi)的可信区间为五、Logistic回归分析方法为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。六、Logistic回归的应用影响因素为分类变量时,用列联表形式卡方检验存在分类的混杂因素时,用Mantel-Haensze但存在局限性(1)控制混杂因素,但无法描述作用大小及方向(2)样本量要求大,单