预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共33页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

医学科研数据挖掘流行病学与卫生统计学系陈大方联系方式:公卫楼520房间电话:82802644(O)邮箱:dafangchen@bjmu.edu.cn尿布和啤酒——发生在沃尔玛的故事关联规则挖掘课程内容安排数据挖掘概述(1)数据挖掘方法(3)数据挖掘实例(2)文章思路分析(1)数据挖掘概述数据挖掘产生背景数据挖掘应用领域数据挖掘的定义和特点数据挖掘基本过程数据挖掘任务数据挖掘方法数据挖掘所发现的知识分类数据挖掘在医学领域的应用数据挖掘未来研究热点一、数据挖掘产生背景在1989年8月举行的第一届KnowledgeDiscoveryinDatabase(KDD)国际学术会议上提出。现实需求许多领域搜集积累了大量的数据,数据背后隐藏了许多具有决策意义的信息,为更好的利用这些数据,需要对其进行更高层次的分析。基础技术条件(1)计算机技术和网络时代(强大的多处理器计算机)。(2)超大规模数据库的出现(海量数据搜集)。(3)数据挖掘算法。二、数据挖掘应用领域三、数据挖掘的定义和特点定义从大量的、不完全的、有噪声的、模糊的、随机的、实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是在没有明确假设的前提下去挖掘信息、发现知识。没有假设≠盲目特点是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。数据挖掘的过程是一个“发现”的过程,而不是“发明”的过程。。四、数据挖掘基本过程数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理:研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作的类型。数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。数据挖掘:对所得到的经过转换的数据进行挖掘。结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定。知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。为什么要预处理数据?存在不完整的、含噪声的和不一致的数据。预处理数据可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其他数据没有包含在内只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经删除。此外,记录历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺少值的元组可能需要推导出来。数据含噪声(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。不一致的数据可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致的。数据的预处理主要包括数据描述、数据清理、数据集成和变换、数据归约四个步骤。数据描述:对于获得数据的总体印象至关重要。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。度量数据的中心趋势和度量数据的离散程度。数据清理:是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。数据集成:是指合并来自多个数据存储的数据和可能需要转换成适于挖掘的形式。数据归约:数据归约技术可以用来得到数据集的归约表示,它接近于保持数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘更有效,并产生相同或几乎相同的分析结果。五、数据挖掘任务聚类分析(clustering)聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。分类(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。预测(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。时间序列模式(time-seriespattern)时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列。挖掘的目的是才时间序列数据库中找出频繁出现的子序列。时间序列周期分析是指对周期模式的挖掘,即在时序数据库中找出重复出现的模式。偏差分析(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差