预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第22卷第1期山东轻工业学院学报Vo1.22No.12008年3月_l0RNALOFSHANDONG1NST1TLrrEOFLIGHTINDUSTRYMar.20o8文章编号:1004—4280(2008)01—0010—03序列模式的关联规则在彩票分析中的应用研究郭跃斌,翟延富,董祥军(山东轻工业学院信息科学与技术学院,山东济南250353)摘要:通过论述数据挖掘和序列模式关联规则的概念及作用,对序列模式关联规则的挖掘算法进行研究,以100期彩票开奖结果为挖掘对象,从中找出各个号码的最长序列模式,并对算法进行实现。关键词:序列模式;关联规则;数据挖掘中图分类号:TP311文献标识码:AApplicationresearchofsequentialpatterninlotteryanalysisGUOYue—bin,ZHAIYan—fu,DONGXiang-jun(SchoolofInformationScienceandTechnology,ShandongInstituteofLightIndustry,Jinan250353,China)Abstract:Thispaperdiscussedthemodelsofdataminingandsequentialpattern,studiedthealgorithmofse—quentialpattern,andtook100winninglotteryticketsasminingobjecttofindnumber’Ssequentialpattern,pro—gramsusingVBtoimplementdatamining.Keywords:sequentialpattern;associationrules;datamining间的前后或因果关系,序列分析要求购买商品记录0引言是按时间次序登记的。比如,超市中有6o%的客户在第一次交易中购买了商品,其中又有80%的客随着计算机技术的发展,各行各业都开始采用计户在第二次交易中购买了商品B,即序列模式是A算机及相应的信息技术进行管理和运营,这使得企业jB。显然,通过序列模式分析,超市可以发现客户生成、收集、存贮和处理数据的能力大大提高,数据量潜在的购买模式。也与Et俱增。企业数据实际上是企业的经验积累,当在序列模式分析中,需要用“支持度”和“可信其积累到一定程度时,必然会反映出规律性的东西。度”两个阈值来淘汰那些无用的序列模式。数据挖掘技术就是从大量的数据中挖掘出数据项之在此例中,设序列AjB的可信度为c,支持间的相互联系,我们称之为关联规则。其中序列模式度为S,则关联规则主要分析各事件发生的前后顺序。通过挖掘序列模式的关联规则,可找出企业以往的成败经C=(先购买商品A再购买商品B的客户数)/(先购买了商品A的客户数)验,预测将来的发展方向,更好的为企业决策服务。S=(先购买商品A再购买商品B的客户数)/1序列模式关联规则的基本概念(总客户数)由此可得此例的序列模式AjB的可信度为基于序列模式的关联规则挖掘主要是挖掘数据C=80%,支持度S=48%。收稿日期-'2007—12—02基金项目:山东省优秀中青年科学家奖励基金项目(2006BS01017);山东省教育厅科技计划项目(J06N06)作者简介:郭跃斌(1978一),女,山东省济南市人,山东轻工业学院信息科学与技术学院硕士研究生,研究方向为数据挖掘第1期郭跃斌,等:序列模式的关联规则在彩票分析中的应用研究基本概念如下所述:设有两个序列口<ol,o2,c1,C2,c3,C4,C5,C6,,C8(分别存放30个号码的⋯,口>和6<6l,62,⋯,6>,如果存在整数il<中奖情况,0表示号码未中,1表示号码中奖),对表i2⋯<i且口l包含于6口2包含于62,⋯,包list进行扫描,将每期开奖中各个号码的中奖情况存含于b则称序列口包含于序列6中。在一个序列人表number。如表2所示。表2表number集中,如果序列|s不包含于任何其它序列中,则称序列|s为最大的序列。如果一个序列|s包含于一IDC1c2c3C4c5c6c7l00000l0⋯⋯个客户序列中,则我们称该客户支持序列|s。一个20100000⋯⋯具体序列的支持定义为那一部分支持该序列的客户31001001总数。给定一个由客户交易组成的数据库D,挖掘序列模式的问题就是从那些具有客户指定最小支持进行以上处理后,每个号码生成1一项集。例度的序列中找出最大序列。而每个这样的最大序列号码l的l一项集Llal:ere,atetablellal(tlchar(1),就代表了一个序列模式。Conint),其中t1表示项集中的每一项(.j}一项集包含t1,t2,⋯,tk),cOn表示该项的支持度计数,依次2挖掘序列模式关联规则算