预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学在社会调查(diàochá)资料中,最为常见的问题就是。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查(diàochá)研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救有缺失的调查(diàochá)数据,以保证研究工作顺利进行。——数据缺失是指在数据采集时由于某种原因应该得到(dédào)而没有得到(dédào)的数据。它指的是现有数据集中某个或某些属性的值是不完全的。缺失(quēshī)原因(Reason)Little和Rubin针对缺失(quēshī)数据,探讨缺失(quēshī)数据与目标变量是否有关,定义了3种不同的缺失(quēshī)机制。产生(chǎnshēng)机制(Mechanism)缺失(quēshī)模式(Pattern)缺失(quēshī)模式(Pattern)这种方法简便易行。在被调查对象出现多个变量的缺失,并且被删除的含缺失的数据量在整个数据集中的数据量占的比例非常小的情况下,是非常简单而有效的。 它的不足之处在于,删除缺失数据的过程中减少了原始的数据,导致了信息的损耗。因此,当缺失数据所占比例较大,特别当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而(cóngér)引出错误的结论。多重填补法1977年由Rubin首先提出,经过Meng和Schafer等人不断的完善和综合已形成一个比较系统的理论,该法有以下优点:①多重插补过程产生多个中间(zhōngjiān)插补值,可以利用插补值之间的变异反映无回答的不确定性,包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。②多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系。③多重插补能给出衡量估计结果不确定性的大量信息,单一插补给出的估计结果则较为简单。不处理就是直接在包含空值的数据上进行数据挖掘。 贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且(érqiě)它的估计参数较多,为系统带来了高方差,影响了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在指数爆炸的危险。 人工神经网络可以有效的对付空值,但人工神经网络在这方面的研究还有待进一步深入展开。数据填补通常是一件非常繁琐的工作,很多常用的统计软件以及专门为其编写的软件都可以完成。从中可以看出,各种软件的着重点不同,使用效果也不尽相同,在使用时要根据个人实际需要(xūyào)加以选择。处理(chǔlǐ)方法的评价/处理(chǔlǐ)方法的评价这段时间,阅读了相关的文献资料,对数据缺失的概念、缺失原因、缺失机制、缺失模式以及一些基本填补方法有了大致的理解,并初步了解了数据缺失处理方法的研究现状。 对于数据缺失国内外学者已经做了广泛的研究,但没有哪一种处理缺失数据的方法是普遍适用的,每种方法都存在(cúnzài)不如人意之处。目前各种新兴的方法层出不穷,如人工神经网络,机器智能模型等。所以针对各种实际问题,要注意分清问题的实质,适当地运用处理方法才是解决好实际问题的关键所在,此外,融合相关领域、相关学科的优秀算法,实现创新。计划: 继续研读针对(zhēnduì)缺失数据构造分类器的相关文献资料,摸索其中的研究理论和方法,并结合相关学科的先进理论(核主元分析,遗传算法等),探究一种更高效的处理缺失数据分类问题的方法,与已有方法加以比较验证。敬请大家(dàjiā)批评指正 谢谢