预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

规范化序列模式在读者借阅行为模式挖掘的应用研究摘要:高校图书管理系统经过多年运行产生了大量借阅数据为从借阅数据中发现读者借阅图书的行为模式和借阅规律提出使用PrefixSpan算法对借阅数据进行序列模式挖掘。为平衡序列模式中支持度和长度各自的重要性将挖掘结果进行规范化处理得到带有权值的序列模式。通过对带有权值序列模式进行分析可得到读者借阅图书的前后衔接关系和借阅规律根据这些借阅规律可对读者进行借阅指导。关键词:序列模式;PrefixSpan算法;规范化;借阅规律中图分类号:TP274+.2文献标志码:A文章编号:1006-8228(2014)04-34-03Abstract:Theoperationofthecollegelibrarymanagementsystemhasgeneratedalargeamountofborrowingdataforsomanyyears.InordertofindoutthebehaviorpatternandborrowingrulesofreadersthePrefixSpanalgorithmisproposedtoleaddatasequencepatternmining.Tokeepbalanceofimportancebetweenthesupportdegreeandthelengthinsequencemodetheminingresultswillbenormalizedandthesequencepatternswillbegivenwithweights.Basedontheweightedsequentialpatternanalysisthelinkingrelationandtheborrowingrulescanbeobtainedandreadersmayborrowbasedontheserules.Keywords:sequentialpatterns;prefixspanalgorithm;normalization;borrowingrules0引言数据挖掘又称为数据中知识发现是从海量数据中获得有趣、有用、隐含在数据背后且可理解的相关知识[1]。数据挖掘中常见方法有关联规则、分类、聚类、序列模式、Web挖掘等这些技术在图书馆的应用主要集中在关联分析和聚类分析[2]两方面使用序列模式进行分析的较少。目前各高校图书管理系统经过多年运行生成大量借阅数据通过对这些数据直接分析可得知哪些是热门书籍读者借阅图率、图书利用率等信息但是要发现借阅数据背后的规律不是直接分析数据能够做到的。同时图书馆是为读者服务的部门应该主动掌握读者的借阅习惯、借阅规律和借阅倾向主动为读者推荐书籍。借助于系统推荐图书分两个方面一方面是读者借阅某本图书时主动为其推荐相关书籍并给出借阅图书的先后顺序;另一方面是在读者根本不清楚自己要阅读什么书时应根据读者专业主动推荐相关专业图书的借阅顺序。同时还要解决以往系统关联规则仅能发现同时被某些读者借阅过的图书而无法给出借阅图书的先后顺序问题。因此本文提出使用PrefixSpan算法挖掘序列模式使用[01]区间规范化处理挖掘到的序列模式。1PrefixSpan算法PrefixSpan算法[3]在挖掘序列模式时不需要产生候选项集挖掘速度较快。算法的基本思想是找出频繁1序列后产生投影数据库根据前缀挖掘投影数据库得到局部频繁项集将前缀与局部频繁项集结合得到频繁序列具体挖掘步骤如下。Step1:扫描序列数据库S找出满足最小支持度的频繁1-项集即得到长度为1的序列模式。Step2:将长度为1的序列模式作为前缀构造投影数据库。Step3:对每个前缀扫描所属的投影数据库根据最小支持度得到相关局部频繁项集将前缀和局部频繁项集结合得到频繁序列。Step4:继续将得到的频繁序列作为前缀挖掘该前缀的投影数据库得到局部频繁项集结合得到频繁序列。重复该步骤直至不能发现更长的频繁序列算法停止。2序列模式规范化处理如何有效使用挖掘出来的序列模式成为序列模式应用的关键。目前大部分使用的方法是按长度降序排列长度越长的越有用;也有按支持度降序排列支持度越高的序列模式越有用。这两种方法各有利弊第1种方法序列模式支持度不够大而不具有非常的普遍性第2种方法序列模式太短而起到的指导作用小