预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共42页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘技术(3)文章错误案例 统计分析方法回顾 如何正确选择统计分析方法 统计分析方法应用案例 文章错误案例案例一 原文题目:《美喘清和博利康尼治疗支气管哮喘各40例临床疗效与副作用比较》,作者选择80例哮喘病人随机分为美喘清组与博利康尼组各40例,记录各组病人发生疗效的时间(见下表)。所得结果用卡方检验进行处理,认为美喘清较博利康尼发生疗效的时间早,且差异具有统计学意义(P<0.05)。点评:根据研究目的,每个哮喘患者都能提供一个药物发生疗效的时间,因而此资料从本质土讲应为定量资料,表中结果只是为了表达的方便列出不同时点上的频数分布,并不代表此资料的结果变量就为定性资料。原作者采用卡方检验分析定量资料,所能回答的问题与原作者的分析目的不一致。此时得出的结论只能是美喘清组和博利康尼组在不同起效时间的构成上存在的差别是否具有统计学意义,并不能得出两组起效时间之间的差别具有统计学意义。案例二 原文题目:《地氟醚对老年病人血液动力学的影响》,为研究地氟醚对老年病人血液动力学的影响,选择腹部手术老年病人(年龄60一74岁)30例,所有病人术前肝肾功能检查均正常。在吸入地氟醚前,监测心输出量(CO)、峰流速(PV)、心率(HR)、校正的血流时间(FTC)、中心静脉压(CVP)、心脏指数(CI)、平均动脉压(MAP)、外周血管阻力(SYR)作为基础值,然后分别调整地氟醚浓度至0.5MAC、1.0MAC、1.5MAC、2.0MAC,同时测定以上各参数。结果见表。统计学处理:采用T检验来测定差异显著性,P<0.05为有显著性差异。点评:同一个病人重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量’有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,作者采用T检验进行两两比较,因T检验仅适合分析单因素设计且因素的水个数最多为2的定量资料,因此不适合分析此类资料。根据数据可采用重复测量设计资料的方差分析。统计学四型错误统计分析方法回顾无假设的数据挖掘方法Q决策树的原理决策树的特点支持向量机原理SVM的特点人工神经网络神经网络的特点聚类概念常用聚类算法的特点关联规则的原理关联规则的特点时序概念时序分析的特点基于假设的数据挖掘方法数据统计分析方法(1) (单因素分析) T检验 卡方检验 ANOVA数据统计分析方法(2) (多因素分析) LOGISTIC回归过程 两分类反应变量 多分类有序反应变量 多分类无序反应变量 REG过程(回归过程) 广义线性模型过程(GENMOD) 传统线性模型:DIST=NORMAL,LINK=IDENTITY(衡等式) Logistic回归:DIST=BINOMIAL,LINK=LOGIT(分对数) Poisson回归:DIST=POISSON,LINK=LOG(对数) GAM模型:DIST=GAMMA,LINK=LOG(对数) 数据统计分析方法(3) (时间考虑) Kaplan-Meier过程 CoxRegression过程 时间序列分析(指数平滑方法、自回归分析、ARIMA过程) 数据统计分析方法(4) (数据结构考虑) 遗传度计算 家族聚集性分析 组内相关分析数据统计分析方法(5) (多水平分析) 广义线性混合效应模型(GLMMs) 混合效应模型 混合线性模型(MIXED) 非线性混合效应模型(NLMIXED) 数据统计分析方法(6) (复杂自变量关系分析) 叛别分析过程(DISCRIM) 聚类分析过程(CLUSTER) 主成分分析与因子分析 通径分析 结构方程模型数据统计分析方法(7) (遗传分析方法) 单体型分析 FBAT分析(TDT,SDT) 交互作用分析(MDR、GMDR、PGMDR) 连锁分析 分离分析 GWS ……如何正确选择 统计分析方法统计分析方法如何分类?图1:变量、记录和时间与数据分析的关系思考点 从研究变量之间关系进行选择 从研究对象构成进行选择 从研究时间进行选择 从以上两个或者三个组合进行选择挑战统计分析方法应用案例研究现场:上海、广州、西安、北京、武汉五个城市。 研究设计:队列研究,2001-至今;每两年随访一次。 研究对象:以家庭为单位,对每个家庭人员进行调查。 抽样方法:多阶段分层随机抽样。 流行病学问卷调查:基本信息:年龄、性别、文化程度、婚姻状况、收入;生活环境、行为、饮食习惯;既往疾病史。 体格检查:身高、体重、血压。 临床生化检测:血糖、血脂、肝肾功能,。 基因分型:10个基因,30个位点,其中部分位点存在连锁不平衡。美国兰德公司在朝鲜战争刚开始时预言——这是选择在错误的时间、错误的地方、同错误的对手打一场错误的战争(Frankly,thisstrategywouldinvolveusinthewrongwar,atthewrongplace,att