预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

缺失数据的插补方法 中国科学院系统科学研究所 杨军 联系方式:tomyj2001@163.com 报告提纲缺失数据什么是插补为什么进行插补单一插补均值插补 热平台插补 冷平台插补最近邻插补 —在插补类中按匹配变量找到和受者记录最接近的供者记录替代缺失记录 比率/回归插补 —根据辅助信息与样本中的有效回答记录建立一个比率或回归模型 EM算法 — 每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得到一个插补值,加上从某个适宜的分布中产生的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据的频数结构,保持比确定性插补更真实的变异性。下面绍两种贝叶斯观点的随机插补: 贝叶斯Bootstap(ABB) 近似贝叶斯Bootstap(ABB) 单一插补的优点 1、标准的完全数据分析方法 2、对公众应用数据库,程序运行一次 缺点—低估估计量的方差 改进—校正估计量的方差,主要利用Jackknife、Bootstrap等工具,给出方差的相合估计。多重插补多重插补保持了单一插补的两个基本优点,即应用完全数据分析方法和融合数据收集者知识的能力。相对于单一插补,多重插补有三个极其重要的优点:第一,为表现数据分布,随机抽取进行插补,增加了估计的有效性。第二,当多重插补是在某个模型下的随机抽样时,按一种直接方式简单融合完全数据推断得出有效推断,即它反映了在该模型下由缺失值导致的附加变异。第三,在多个模型下通过随机抽取进行插补,简单地应用完全数据方法,可以对无回答的不同模型下推断的敏感性进行直接研究。多重插补缺点: 一、生成多重插补比单一插补需要更多工作 二、贮存多重插补数据集需要更多存储空间 三、分析多重插补数据集比单一插补需要花费更多精力。 多重插补所面临的主要问题是如何得到缺失数据的多个插补版本。为正确地进行插补,需要首先要明确缺失机制,然后讨论插补机制。问题与挑战Theend!