欢迎来到天天文库
浏览记录
ID:36622257
大小:85.00 KB
页数:6页
时间:2019-05-13
《基于Apriori算法超市商品销售数据关联规则分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Apriori算法的超市商品销售数据的关联规则分析郑印(华中师范大学计算机学院,湖北武汉430079)AprioriassociationrulesalgorithmbasedsupermarketmerchandisesalesdataZhengyin(ComputerCollege,CentralChinaNormalUniversity,Hubei430079,China)摘要:Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响
2、。尤其是在超市零售业中的应用更是广泛,通过对销售数据记录的分析,挖掘出商品的关联规则,有利于提高超市零售业的销售利率,增强其市场竞争力。关键词:关联规则;Apriori算法;销售利率Abstract:Apriorialgorithmiswidelyusedinbusinessandprice’sanalysisofconsumermarket,itcanquicklydeterminetheimpactofprice’srelationshipsbetweenthevariousproducts.Esp
3、eciallyusinginsupermarketretailingisevenmorewidespread,throughtheanalysisofsalesdataofrecord,theassociationruleminingcommodities,helptoimprovethesupermarketretailsalesrates,andenhancetheirmarketcompetitiveness.Keywords:Associationrules;Apriorialgorithm;s
4、alesrate1.研究背景超市零售业是数据挖掘应用较为活跃的一个领域。了解客户的购买习性和趋势,对于零售商制订销售策略是至关重要的。通过关联规则的挖掘,分析客户对商品的需求状况,发现顾客的潜在需求特征,有目的性的开展广告和销售业务。通过对顾客的忠诚度分析,相应调整商品的价格和类型,改进销售服务,有利于保持现有客户,寻找潜在的客户,扩大销售的范围和规模,从而增加销售量。通过分析销售的数据记录,目前主要应用于销售预测、库存需求、零售点选择和价格分析,分析客户的购买行为和习惯,分析商场的销售商品的构成,使商
5、品的选择与搭配更为科学。因此,对超市经营信息、数据的整理、挖掘,从中得出对经营有用的信息,增强超市的竞争能力,已经成为各家超市企业面临的一个紧迫课题,同时,Apriori算法作为关联规则挖掘的重要算法,也被各个企业所运用。2.关联规则的基本概念设I={i1,i2,…,im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合。每一个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当AT。关联规则是形如AB的蕴涵式,其中AI,BI,并且A∩B=Φ。关联分析中还包括两
6、个重要的参数,支持度(min_sup)和置信度(min_conf)。具体定义如下:支持度:support(AB)=P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。置信度:confidence(AB)=P(B
7、A),即在出现项集A的事务集D中,项集B也同时出现的概率。同时满足最小支持度(min_sup)和最小置信度(min_conf)的规则称作强规则。项的集合称为项集(itemset),包含k个项的项集称为k-项集。项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。如果项集的
8、出现频率大于或等于最小支持度,则称为频繁项集频繁k-项集的集合通常记作Lk。3.Apriori算法分析关联规则(AssociationRules)的挖掘是数据挖掘中的一个重要问题。我们采用的是相关性分析的方法,采用的是Apriori算法。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。该算法的基本思想是:首先找出所有的频集,这些项集出现的频
9、繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。Apriori算法采用连接步和剪枝步两种方式来找出所有的频繁项集。1)连接步为找出Lk(所有的频繁k项集的集
此文档下载收益归作者所有