预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2004年2月图书馆论坛Feb,2004 第24卷第1期LibraryTribuneVol124No11 WEB的数据挖掘 潘卫东 (佛山科学技术学院图书馆,广东佛山528000) 〔摘要〕文章主要描述了WEB页数据挖掘的基本任务,包括内容、结构、使用等。针对WEB数据的复杂性和特殊 性,WEB的数据挖掘除日志等一小部分可以用常用的数据挖掘方法外,必须对WEB页做必要的数据处理,使之达到结构 化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。 〔关键词〕WEB数据挖掘;文档内容挖掘;结构挖掘;使用挖掘;挖掘方法 〔中图分类号〕G25017〔文献标识码〕A〔文章编号〕1002-1167(2004)01-0079-03 行摘要、分类、聚类、关联分析、以及利用WEB文档进行 1WEB数据挖掘概述 趋势预测等。另外,内容挖掘还包括对多媒体数据的挖掘。 因特网是到目前为止世界上最丰富和最密集的信息来源,WEB内容摘要是从文档中抽取关键信息、用简洁的形式 在海量的、异构的WEB信息资源中,蕴藏着具有巨大潜在对文档的内容进行描述或解释,这样用户可以不浏览全文就 价值的知识。所以人们迫切需要找到这样的工具,能够从可以了解文档集合的总体内容。这种形式的WEB挖掘非常 WEB上快速、有效的发现资源,发现隐含的规律性内容,提有用。例如在检索结果显示中的应用、在WEB自动文摘中 高在WEB上检索信息、利用信息的效率,解决数据的应用的应用等等。WEB的分类是指根据事先确定好的类别,给每 质量问题。个WEB确定一个大类,例如,通过对WEB页的预处理得到 WEB数据挖掘是指在WWW上挖掘有趣的、潜在的、蕴WEB中的文本数据,再通过切分词、抽词、词频统计得到一 藏的信息以及有用的模式这样一个过程。与传统的数据挖掘个词串,再与分类号对应,把WEB页归于某一类。聚类则 相比,WEB数据挖掘有自身的特点:首先,WEB挖掘的对是事先没有确定类别,但要求把相似度高的文档归于相同的 象是海量的、异构的、分布的文档,其中对WEB服务器上类。关联分析是从文档集合中找出不同语词之间的关系。利 的日志和用户信息等数据展开的挖掘,仍然属于传统的数据用WEB文档进行趋势预测是指通过对WEB文档的分析得到 挖掘的范畴。其次,WEB在逻辑上是一个由文档节点和超链在某个历史时刻的情况或将来的取值趋势等特定数据。 接构成的图,因此WEB的挖掘所得到的模式可能是关于212WEB文档的结构挖掘 WEB内容的,也可能是关于WEB结构的。再者,由于WEB这一类型的数据挖掘是从Internet的整体结构和网页的 文档是半结构化或无结构的,且缺乏机器理解的语义,而数相互链接以及网页的本身结构中发现知识的过程。目前WEB 据挖掘的对象局限于数据库中的结构化数据,并利用关系表的结构挖掘主要是针对链接结构模式。这种思想源于引文分 格等存储结构来发现知识,因此有些数据挖掘技术并不能直析,即通过分析一个网页链接和被链接数量以及对象来建立 接的应用于WEB数据挖掘,需要对WEB文档进行预处理。WEB之间的链接结构模式。这种模式可以应用于网页的归 类,并且可以由此获取获得有关不同网页间相似度及关联度 2WEB数据挖掘的主要处理对象 的信息。这种基于链接结构的WEB结构挖掘还有助于用户 WEB上的信息是多样性的,包括WEB的文档内容和找到相关主题的权威站点和网页,对网络资源检索结果的排 WEB的结构内容以及WEB的使用信息,根据处理对象的不序也有很大的意义。 同,可以将WEB挖掘可分为WEB内容挖掘、结构挖掘、使另外,每个WEB内部也有或多或少的结构,通过对 用挖掘。其中内容挖掘指在人为组织的WEB上,从文件内WEB内部结构的研究,发现可以利用给定的WEB页面的集 容及其描述中获取有用信息的过程;结构挖掘则是从人为的合得出一定的规则,寻找到相关的其他页面。这是因为一般 链接结构、文档的内部结构、文档URL中的路径结构中获取的大型网站的网页制作都具有某种模版的格式。例如,Di2 有用知识的过程;使用挖掘是通过挖掘相应站点的日志文件Pasquo使用HTML结构树对WEB页面进行分析得到网页的 和相关数据来发现该站点上的浏览者和顾客的行为模式。内部结构特征,从而学习公司的名称和地址等信息在页面中 211WEB文档的内容挖掘出现的模式。 WEB内容数据的挖掘实际上是从WEB文档及描述中获213WEB的使用挖掘 取知识,具体来说就是对WEB上大量的文档集合的内容进基于Web使用的挖掘一般意义上指的是WEB日志挖掘。 97 ©1995-2006TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved. 2004年2月图书馆论坛Feb,2004 第2