预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Web日志挖掘技术的商务信息系统构建尹晓婷+高洪旗摘要:Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。关键词:Web日志挖掘,商务信息网站,数据1.Web日志挖掘的概念Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问信息发现。web日志挖掘是关于用户行为及潜在顾客信息的发现,一般包括三个阶段,即数据预处理、模式识别及模式分析。2.Web日志挖掘的过程Web日志挖掘通过分析和研究Web日志记录中的规律,识别电子商务的潜在用户,提高对最终用户信息服务的质量并改进Web服务系统的性能和结构。2.1数据预处理Web日志文件记录中存储的是用户访问站点信息的原始记录,直接在这些数据上面进行挖掘是比较困难的,在使用算法或工具对其进行分析之前,必须进行预处理。预处理过程是Web日志挖掘质量保证的关键,因为处理后的数据好坏、全面与否,直接影响到数据挖掘的结果,进而对网站决策者的决策造成直接影响。特别是中小型电子商务网站,其数据相对较少,因此数据处理的准确性极为重要。Web日志预处理主要有4个步骤:数据净化、用户识别、会话识别和数据合并。Web日志文件中包含一些不能反映用户行为的记录,数据净化就是去掉这些记录。而用户识别的目的是对用户的唯一性的识别。在通常情况下,只有通过分析日志文件中的IP地址、agent等信息来识别不同的用户。会话识别是建立在对用户识别的基础上的,其目的是将用户的访问记录分为单个会话。同时,对于网站上繁杂的页面,由于数量较多,而且有许多网页的内容有一定的联系或相似之处,所以可以对其进行一定程度的合并,从而将其分成能反映网站逻辑信息的同质类别。特别是中小型电子商务网站的网页,由于网站设计人员的知识架构、技术层次以及对所要设计的网站内容的了解程度的限制,很难建立一个完全无重复内容网页和完全反映网站逻辑信息的网站。2.2模式发现模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等。2.3模式分析模式分析是Web日志挖掘中的最后一项重要的步骤,主要是为了在模式发现算法找到的模式集合中发现有趣(有用)的模式。对于一个商务信息系统,通过模式发现与模式分析,可以得到详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和网页内容,对网站进行优化,从而延长用户的驻留时间,挽留老用户、吸引新州户,并增加用户的购买率,以此獲得电子商务网站的成功运行;而通过对内部管理系统用户的聚类,可以明确网站运营的缺陷在哪里,还有何可以改进的地方。3.Web日志挖掘技术在商务信息系统中的构建3.1建立个性化的网站模型(1)用户可以通过注册后访问网站,也可以不通过注册直接访问;(2)针对不同的用户,网站提供不同的服务;(3)根据用户的访问记录信息,动态调整网站的页面,产生的个性化的网站使得用户可以更容易地到达他所需服务的数据网页;(4)挖掘用户的Web访问日志,在用户定制区内预测并推荐用户的潜在访问网页链接。3.2个性化网站系统的框架系统主要由4个功能模块组成,分别为用户识别模块,行为记录模块,兴趣识别模块和个性推荐模块。各个模块的说明如下。(1)用户识别模块。用户识别模块处理用户的基本信息并识别用户。包括用户的登录名(注册用户有自己唯一对应的name;非注册用户有一个共同的name,但有不同的Cookie值);用户登录密码;用户注册个人信息时填入的喜好;以及为了更加准确地识别用户而获取的关于用户身份的其他一些基本信息,如MAC地址、IP地址、浏览器版本号和操作系统版本号等。用户登录后通过用户名或Cookie值为每个用户分配UserID,以方便其他模块进一步地调整网站的页面以及在用户定制区内推荐该用户可能访问的链接。(2)行为记录模块。用户的访问(行为记录)日志是系统进行用户个性化特征分析的数据依据和数据基础。访问日志模块处