预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据 基于Web日志挖掘的客户访问兴趣分析引言Web日志挖掘李中1,苑津莎1,徐小彩2ofbrowsingAnalysisinterestbasedweblog0Internet的迅速发展,Web挖掘(Webing)因此成为一个热门研究领域[1,2]。Web挖掘是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘技术、信息科学等多个领域的一项技术。Web挖掘的数据源可以分为以下3种类型[2,3]:(1)Web内容数据,如HTML标记的Web文档;(2)web结构数据,如Web文档内的超链接;(3)客户访问数据,如服务器log日志信息。相应地,Web挖掘也可分成3类:Web内容挖掘(WebMining),Web结构挖掘(WebMining)和Web日志挖掘(WebMining)。目前重点研究的是Web日志挖掘。本文论述了Web日志挖掘基本概念、步骤和主要任务,结合对汽修之家(http://W确r.xiul23.corn/)网站Web日志挖掘的过程,剖析了Web日志数据预处理过程和客户访问兴趣分析的步骤及其实现技术。最后,对本文的工作进行了总结。1Web日志挖掘是对客户访问Web时在服务器留下的访问记录进行挖掘,其主要的数据源有服务器的日志(包括服务器日志、引用日志和代第36卷第5期2009年9月华北电力大学学报(1.华北电力大学电气与电子工程学院,河北保定071003;2.繁昌供电公司,安徽芜湖241200)摘要:数据预处理是web日志挖掘中的一项关键技术,如何分析客户访问兴趣是web挖掘中的一个重要研究课题。概述了web日志挖掘的概念、方法和步骤,重点分析了数据预处理的主要步骤及其实现技术,考虑客户访问路径和浏览时间长度等因素,给出并计算分析了网站用户的访问兴趣的方法。汽修之家网站日志的实际测试结果表明了该方法的有效性。关键词:Web日志挖掘:数据预处理;访问兴趣中图分类号:TP391文献标识码:A文章编号:1007—2691(2009)05—0082—07Jin—shal,XUBaodingeompany,Wuhu241200,China)preprocessingWebmining,mlphasizi咏theexperim即tpreprocessing;browsingMin.JournalChinaVd.36.No.5usersonLIZhon91,YUANXiao-eai2(1.SchoolElectricalElectronicElectric071003,China;2.Fanchangkeytechnologymining.andimportantresearchtopic.Thisbasicmethodologytech·bmwsinginvestigatedtakenaccount.Realresultstheeffectivenessmining;data收稿El期:2009.01.03ContentStructureNoahPowerUniversitySep.,2009andEngineering,NorthUniversity,Abstract:Dataishowminepat—paperoutlinesniqueinming.andwaswhichbrt)、jvsingpathdurationpagea0_os鹤areintowvcw.xiul23.cornfileshowthismethod.Keywords:webtOternsanuser 万方数据 2数据预处理中不是G】玎的记录,此外,要删除与客户访问信息。它一般包括数据清理、客户识别、会话识理日志)、web站点拓扑结构和站点文件、客户注册数据、客户调查信息以及cookies等。Web日志挖掘的研究的围绕着分析Web站点性能、理解客户意图和改进web站点设计3个应用方面进行,常用的技术主要有关联规则分析、序列模式分析、分类与聚类分析、路径分析等[4,5],Web日志挖掘过程一般过程如下所述[3,6,7]。(1)数据预处理。对原始web日志文件中的数据进行提取、分解、合并,转化为适合进行数据挖掘的数据格式,保存到关系型数据库表或数据仓库中;(2)模式发现。用数据挖掘、统计、机器学习和模式识别等各个领域的方法和算法,针对web数据的特性,从数据预处理所形成的客户使用记录中发现隐藏的模式、规则。常用的实现算法有统计分析、关联规则、聚类、分类、序列模式等;(3)模式分析。针对实际应用,对挖掘出来的模式、规则进行分析,过滤掉没有意义的规则或模式,把客户感兴趣的规则或模式转化成知识,应用到具体领域中。汽修之家Web日志挖掘的目的是从web服务器日志文件中提取客户访问信息,分析网站单一客户和群体客户的兴趣分布情况,为网站客户提供个性化服务