预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

DNFGKwww.dnf717.comsjl 【摘要】数据挖掘技术能使我们从模糊的、不完全的、随机的、大量的数据中,提取潜在的有用的信息和知识。经过20几年的发展,数据挖掘已取得了巨大成就。Web挖掘是数据挖掘技术的一个重要分支,它是随着人工智能技术、数据库技术和网络技术的发展而提出来的。本文针对Web日志挖掘的特性,对关联规则的挖掘算法进行深入的研究,系统地探讨了关联规则挖掘算法在Web日志挖掘的应用。利用优化Apriori算法,使之更具有效率。 中国论文网 【关键词】数据挖掘;Web使用挖掘;关联规则;Apriori算法 1.引言 随着网络技术的不断发展,用户可以访问到的信息越来越多。如何快速地找到自己所需要的信息?这是随着网络技术的迅速发展所带来的一个新问题。为了找到自己所需要的信息,人们大多数通过搜索引擎进行检索,但由于许多搜索引擎主要是以关键字搜索为主,因此,往往用户有时候搜索出来的资料和自己所需要的信息之间存在着一定的差异。在用户访问网络的过程中,访问模式隐含了他们的爱好、兴趣等信息。为了分析、跟踪出这些信息,搜索出符合用户兴趣爱好的信息,Web数据挖掘应运而生。 2.Web数据挖掘 2.1Web数据挖掘的含义 Web数据挖掘是利用数据挖掘、文本挖掘、机器学习等技术从Web页面数据、日志数据、超链接关系中发现感兴趣的、潜在的规则、模式、知识[3]。Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻出有用的信息[2]。 Web挖掘在很多方面发挥了重要作用,如:挖掘搜索引擎的结构、分析微博热点话题、探究访问者访问路径、个性化推荐等。但由于网络上的数据是非结构化的,因此传统的数据挖掘技术在Web数据挖掘上会显得力不从心。 2.2Web数据挖掘的分类 根据挖掘对象的不同,Web数据挖掘通常可划分为以下三种类型:针对内容的Web挖掘(Web内容挖掘)、针对结构的Web挖掘(Web结构挖掘)、针对使用记录的Web挖掘(Web使用挖掘)。 3.Web使用挖掘 3.1Web使用挖掘的含义 Web使用挖掘是从网站服务器端的Web日志文件中找出有潜在的、有价值的信息。通过分析保存在Web日志文件中的信息,如:用户访问时间、访问路径、点击的超链接、访问方式等数据信息,最终发现该用户感兴趣的网络访问模式。 3.2Web服务器日志 学习者访问站点时每个页面的请求信息记录在Web服务器日志里,这些信息在Web日志文件中以一条条记录储存,其中包含了他们访问站点的详细信息,比如:访问时间、用户ID、用户IP地址、用户请求访问的URL页面、请求方法、传输协议、传输字节数、用户代理、错误代码等属性。通常Web日志的格式有:通用日志格式CLF和扩展日志格式ECLF,如表1。 ECLF格式的日志比CLF格式的日志多了“Referrer”和“Agent”两个字段。 3.3Web使用挖掘的过程 一般来说,Web日志挖掘包括:数据采集、数据预处理、模式识别和对挖掘出来的模式进行分析这四个阶段。 3.3.1数据采集 数据采集是Web使用挖掘的第一阶段,这一阶段的主要任务是获取数据。一般可以在客户端、服务器端、代理服务器端采集数据。从服务器端采集数据是一种比较常用的方式。 3.3.2数据预处理 数据预处理是Web日志挖掘过程中非常关键的一步。它可以清除噪声数据、消除数据的残缺性、纠正数据的不一致性。Web日志挖掘中的数据预处理通常分为五个步骤:数据清洗、用户识别、会话识别、路径补充、事务识别。每个步骤的任务如下: (1)数据清洗:主要工作是删除原始Web服务器日志中与挖掘要求无关的数据,如:①URL扩展名:日志中文件中后缀为jpg、gif、jpeg、css、js等。这些记录对于挖掘来说是不需要的;对于用户来说,一般浏览的页面是后缀为.html和.htm的文本页面,所以应该将后缀不需要的记录予以删除。②状态码:过滤掉以4、5开头的信息。③删除以“GET”除外的访问方式完成的服务。 (2)用户识别:主要工作是从Web服务器日志中区分出不同的用户。由于代理服务器、本地缓存和防火墙的存在,有效识别用户变得比较复杂,可以使用启发式规则来识别用户: ①若用户具有不同的IP地址,则认为是不同的用户。 ②若用户具有相同的IP地址,但代理服务器不同,则可认为是两个不同的用户。 ③结合访问日志和网站拓扑结构,构造用户的浏览路径。若请求的页面与浏览的页面没有任何链接关系,则认为存在多个用户。 (3)会话识别:主要工作是将用户的访问记录划分为单个会话。访问站点的一个会话是按被访问时间排序的网页序列组成,也可认为是从一个用户进入网站的时间起到他离开网站的时间止的这段时间内所访问的全部网页的有序集合。在这个时间段中,用户每次点击网页形成的点击流数据按照时间顺序就形成了本次访问的