预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据 数据挖掘技术一挖掘方法的讨论许洋1.2构化的,也有些是半结构化的,如HTML、E—mail等.甑b网页也2009年第8期福建电脑(1、中国矿业大学计算杌科学与技术学院江苏徐州2210002、徐州师范大学现代教育技术中心江苏徐州221116)【摘要】:教据挖掘作为一个新兴的、多学科交叉的应用领域,正在各行各业的以信息分析为基础的决策支持系统活动中扮演着越来越重要的角色.本文介绍了数据挖掘的概念、对象。数据挖掘的常用方法.对几种数据挖掘的工具做了介绍和比较.【关键词】:数据挖掘;决策支持系统;遗传算法数据挖掘作为一个新兴的、多学科交叉的应用领域.正在各行各业的以信息分析为基础的决策支持系统活动中扮演着越来越重要的角色.国内外学术界和企业界.都非常重视对数据挖掘技术的研究、开发和应用.互联网是一个巨大的、分布广泛和全球性的信息服务中心.它涉及新闻、广告、消息信息、金融信息、教育、政府、电子商务和许多其他信息服务.根据有关机构统计.目前互联网的数据以几百兆兆字节来计算.而且增长速度很快.如果将这个庞大的数据库用一般的统计分析来处理的话.显然是有心无力的.自从数据挖掘技术成功地应用于传统数据库领域之后.人们对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也寄予了厚望.并且傲了许多相应的研究和发展了相应的技术.『Il本文介绍了数据挖掘的概念、对象.数据挖掘的常用方法.最后简要对几种数据挖掘的工具做了介绍和比较.1、数据挖掘的概念1.1技术定义当数据积累到一定数量时.某些潜在联系、分类、推导结果和待发现价值隐藏在其中.可以使用数据发掘工具帮助发现这些有价值的数据.数据挖掘就是从海量数据中.提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程.通过数据挖掘能找出数据库中隐藏的信息。实现用模型来拟合数据、探索型数据分析。数据驱动型的发现。演绎型学习等功能.1.2商业定义从应用的角度来看.数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理.从中提取辅助商业决策的关键性数据.简而言之.数据挖掘其实是一类深层次的数据分析方法.可以将数据挖掘描述为按企业既定业务目标.对大量的企业数据进行探索和分析.揭示隐藏的、未知的规律性或验证已知的规律性.并进一步将其模型化的有效方法田.2、数据挖掘的对象数据挖掘可以针对任何类型的数据库进行.既包括传统的关系数据库.也包括非数据库组织的文本源、Web数据源以及复杂的多媒体数据源等.2。l关系数据库关系数据库因为具有坚实的数据基础、统一的组织结构、完整的规范化理论、一体化的查询语言等优点.成为人们对数据挖掘研究的主要形式之一.2.2数据仓库数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合.数据仓库技术是基于信息系统业务发展的需要.基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术.数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成”科学的判断、有效的行为”的一个工具,也是一种达成”数据整合、知识管理”的有效手段.随着数据仓库技术应用的不断深入.越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统.希望能对历史数据进行具体而又有针对性的分析与挖掘.以期从中发现新客户和客户新的需求.2.3文本数据库文本数据库所记载的内容均为文字.这些文字并不是简单的关键词.而是长句子、段落甚至全文。文本数据库多数为非结是文本信息.把众多的Web网页组成数据库就是最大的文本数2.4复杂类型数据库复杂类型的数据库是指非单纯文本的数据库或能够表示动态的序列数据的数据库.主要有空间数据库、时序数据库、多媒体数据库等分类.3、数据挖掘的常用方法3.1神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题.因此近年来越来越受到人们的关注.典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的.用于分类、预测和模式识别的前馈式神经网络模型:以Hopfield的离散模型和连续模型为代表的.分别用于联想记忆和优化计算的反馈式神经网络模型:以ART模型、Koholon模型为代表的.用于聚类的自组织映射方法.神经网络方法的缺点是”黑箱”性.人们难以理解网络的学习和决策过程.3.2遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法.遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用.Sunil已成功地开发了一个基于遗传算法的数据挖掘工具.利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验.结果表明遗传算法是进行数据挖掘的有效方法之一.遗传算法的应用还体现在与神经网络、粗集等技术的结合上