预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Apriori算法的超市商品销售数据的关联规则分析郑印(华中师范大学计算机学院湖北武汉430079)AprioriassociationrulesalgorithmbasedsupermarketmerchandisesalesdataZhengyin(ComputerCollegeCentralChinaNormalUniversityHubei430079China)摘要:Apriori算法广泛应用于商业中应用于消费市场价格分析中它能够很快的求出各种产品之间的价格关系和它们之间的影响。尤其是在超市零售业中的应用更是广泛通过对销售数据记录的分析挖掘出商品的关联规则有利于提高超市零售业的销售利率增强其市场竞争力。关键词:关联规则;Apriori算法;销售利率Abstract:Apriorialgorithmiswidelyusedinbusinessandprice’sanalysisofconsumermarketitcanquicklydeterminetheimpactofprice’srelationshipsbetweenthevariousproducts.Especiallyusinginsupermarketretailingisevenmorewidespreadthroughtheanalysisofsalesdataofrecordtheassociationruleminingcommoditieshelptoimprovethesupermarketretailsalesratesandenhancetheirmarketcompetitiveness.Keywords:Associationrules;Apriorialgorithm;salesrate1.研究背景超市零售业是数据挖掘应用较为活跃的一个领域。了解客户的购买习性和趋势对于零售商制订销售策略是至关重要的。通过关联规则的挖掘分析客户对商品的需求状况发现顾客的潜在需求特征有目的性的开展广告和销售业务。通过对顾客的忠诚度分析相应调整商品的价格和类型改进销售服务有利于保持现有客户寻找潜在的客户扩大销售的范围和规模从而增加销售量。通过分析销售的数据记录目前主要应用于销售预测、库存需求、零售点选择和价格分析分析客户的购买行为和习惯分析商场的销售商品的构成使商品的选择与搭配更为科学。因此对超市经营信息、数据的整理、挖掘从中得出对经营有用的信息增强超市的竞争能力已经成为各家超市企业面临的一个紧迫课题同时Apriori算法作为关联规则挖掘的重要算法也被各个企业所运用。2.关联规则的基本概念设I={i1i2…im}是项的集合。设任务相关的数据D是数据库事务的集合其中每个事务T是项的集合。每一个事务有一个标识符称作TID。设A是一个项集事务T包含A当且仅当AT。关联规则是形如AB的蕴涵式其中AIBI并且A∩B=Φ。关联分析中还包括两个重要的参数支持度(min_sup)和置信度(min_conf)。具体定义如下:支持度:support(AB)=P(A∪B)即A和B这两个项集在事务集D中同时出现的概率。置信度:confidence(AB)=P(B|A)即在出现项集A的事务集D中项集B也同时出现的概率。同时满足最小支持度(min_sup)和最小置信度(min_conf)的规则称作强规则。项的集合称为项集(itemset)包含k个项的项集称为k-项集。项集的出现频率是包含项集的事务数简称为项集的频率、支持计数或计数。如果项集的出现频率大于或等于最小支持度则称为频繁项集频繁k-项集的集合通常记作Lk。3.Apriori算法分析关联规则(AssociationRules)的挖掘是数据挖掘中的一个重要问题。我们采用的是相关性分析的方法采用的是Apriori算法。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里所有支持度大于最小支持度的项集称为频繁项集简称频集。该算法的基本思想是:首先找出所有的频集这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则产生只包含集合的项的所有规则其中每一条规则的右部只有一项这里采用的是中规则的定义。一旦这些规则被