预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

20082 中国集体经济 图1Web数据挖掘分类 摘要:Web数据挖掘是数据挖掘领域 中一个新兴方向。文章介绍了Web数据 挖掘的概念、流程,融合前人的众多研究, 重点分析了Web数据挖掘的分类及其功 能,并对其未来的发展提出了自己的看 法。 关键词:Web;数据挖掘;内容挖掘; 结构挖掘;使用挖掘;应用 一、引言 相对于传统数据挖掘中结构化的数 据,Web上的数据是半结构化或非结构化 的。由于半结构化和非结构化的信息用数 据模型不能清楚地表示,Web的用户群也 表现出多样性的特点,因此,面向Web的 数据挖掘比面向单个数据仓库的数据挖 掘要复杂得多。同时,基于Internet的服务 也如雨后春笋般产生并发展起来。如网上 银行、搜索引擎等。企业急需由Internet这 个巨大的信息源中分析客户行为,寻找商 机。 在上面两个需求的推动下,产生了一 个新的研究领域———Web数据挖掘。Web 数据挖掘是从数据挖掘发展而来,是数据 挖掘技术在Web中的应用。 二、Web数据挖掘概述 (一)Web数据挖掘的概念 Web数据挖掘就是利用数据挖掘技 术从Web文档和服务中自动发现和抽取 信息(Webminingistheuseofdatamining techniquestoautomaticallydiscoverandex- tractinformationfromWebdocumentsand services)。 Web数据挖掘是在分析大量数据的 基础上,做出归纳性的推理,预测客户行 为,帮助企业的决策者调整市场策略、减 少风险并做出正确决策的过程。研究覆盖 了多个领域,包括数据库技术、信息获取 技术、统计学、人工智能中的机器学习和 神经网络等。 (二)Web数据的特点 1、数据量大。Internet将分布于世界 各地的数量巨大的电脑连接起来,每个电 脑上都存有丰富的数据,这些数据涉及不 同的行业和领域,这其中还有很多的用户 行为数据,所以Web数据量非常巨大。 2、半结构化数据结构。半结构化是 Web上数据的最大 特点。传统数据库都 有一定的数据模型, 可以根据该模型具 体描述特定的数据, 比如关系型的数据 库,有统一的格式: 按一定序列编排的 二维表格结构,其中 存储的数据是完全 结构化的数据。而 Web上的数据非常复杂,没有特定的模型 描述。每一站点的数据都各自独立设计, 并且数据本身具有自述性和动态可变性, 但因自述层次的存在,从而是一种非完全 结构化的数据,即半结构化数据。 3、异构数据库环境。从数据库研究的 角度来看,Web网站上的所有信息也可以 看作是一个比普通数据库更大、更复杂的 数据库。每一个Web站点都可以看作是 一个数据源,由于各站点是相互独立的, 之间除了可以互相访问之外并没有任何 关系,所以每个站点之间的信息及信息组 织方式都是不相同的,这就构成了一个巨 大的异构数据库环境。要对这些数据进行 分析,必须要解决各站点之间异构数据的 集成问题,提供给用户一个统一的视图, 才可能从巨大的数据资源中获取有用的 信息。 4、动态性极强。相对于数据仓库的数 据而言,Web的数据量似乎过于庞大,而 且其中的信息还在不断的更新。这几乎不 可能去构造一个数据仓库来复制、存储和 集成Web上的所有数据。 三、Web数据挖掘的分类 Web包括三种类型的数据:Web页面 数据、Web结构数据、Web日志文件。根据 数据挖掘对象的不同可以将Web数据挖 掘分为内容挖掘、结构挖掘和使用挖掘三 类,其具体分类见图1。 (一)Web内容挖掘 1、文本挖掘。对非结构户文本进行的 Web挖掘,称为文本数据挖掘或文本挖 掘,是Web挖掘中比较重要的技术领域。 对文本数据进行挖掘的文档分类和模型 质量评价方法与传统的数据挖掘方法相 类似,分类算法主要应用朴素贝叶斯。对 模型的质量评价主要有分类的正确率、准 确率和信息估值。 2、多媒体挖掘。多媒体数据挖掘是数 据挖掘的一个重要领域,是从多媒体数据 库中提取隐藏的知识、多媒体数据关联、 或者是其他没有直接储存在多媒体数据 库中的模式。多媒体挖掘首先进行特征提 取,然后再应用传统的数据挖掘方法进行 进一步的信息挖掘。广义的多媒体数据挖 掘既包括对图像、视频和声音的挖掘,也 包括对文本数据的挖掘。 (二)Web结构挖掘 整个Web空间里,有用的知识不仅 包含在Web页面的内容之中,而且也包 含在Web页面的结构之中。Web结构挖 掘是指挖掘Web潜在链接结构模式,即 ■梅薇 We