基于关联规则的购物篮分析_方玮玮

基于关联规则的购物篮分析_方玮玮

ID:5390348

大小:275.21 KB

页数:5页

时间:2017-12-08

基于关联规则的购物篮分析_方玮玮_第1页
基于关联规则的购物篮分析_方玮玮_第2页
基于关联规则的购物篮分析_方玮玮_第3页
基于关联规则的购物篮分析_方玮玮_第4页
基于关联规则的购物篮分析_方玮玮_第5页
资源描述:

《基于关联规则的购物篮分析_方玮玮》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第23卷第4期四川理工学院学报(自然科学版)Vol123No142010年8月JournalofSichuanUniversityofScience&Engineering(NaturalScienceEdition)Aug12010文章编号:1673-1549(2010)04-0430-04基于关联规则的购物篮分析1,2方玮玮(1.合肥工业大学计算机与信息学院,合肥230009;2.铜陵学院数学与计算机科学系,安徽铜陵244000)摘要:关联规则研究有助于发现数据库中不同商品之间的联系。其分析结果可以应用于制定营销策略,寻求最佳的商品货架布局。从关联规则挖掘算法和关联模式的评估两方面

2、对购物篮数据进行关联分析。关键词:购物篮;关联规则;频繁项集;Apriori算法中图分类号:TP182文献标识码:A集。如果一个项集包含k个项,则称它为k-项集。例引言如,{啤酒,尿布,牛奶}是一个3-项集。许多商业企业在日复一日的运营中积聚了大量的项集的一个重要性质是它的支持度计数,即包含特数据。例如,商场的收银台每天都收集大量顾客购物数定项集的事务个数。在表1显示的数据集中,项集{啤据。表1给出一个这种数据的例子,称作购物篮事务。酒,尿布,牛奶}的支持度计数为2,因为只有两个事务表中每一行对应一个事务,包含一个唯一标识TID和给同时包含这三个项。定顾客购买的商品的集合。零售商对分析

3、这些数据很1.2关联规则感兴趣,以便了解顾客的购买行为,可以使用这些有价[1]关联规则是形如XyY的蕴涵表达式,其中X和Y值的信息来进行市场促销,库存管理等。是不相交的项集,即XHY=U。关联规则的强度可以表1购物篮事务的例子用它的支持度和置信度度量。支持度确定规则可以用TID项集1{面包,牛奶}于给定数据集的频繁程度,而置信度确定Y在包含X2{面包,尿布,啤酒,鸡蛋}的事务中出现的频繁程度[3]。3{牛奶,尿布,啤酒,可乐}4{面包,牛奶,尿布,啤酒}支持度是一种重要度量,因为支持度很低的规则可5{面包,牛奶,尿布,可乐}能只是偶然出现。从商务角度来看,低支持度的规则多通过对关联分析

4、的方法进行研究,发现隐藏在大型半也不是令人感兴趣的,因为对顾客很少同时购买的商数据集中的令人感兴趣的联系。所发现的联系用关联品进行促销可能并无益处。因此,支持度通常用来删去规则或频繁项集的形式表示。例如,从表1所示的数据那些不令人感兴趣的规则。此外,支持度还具有一种期中可以提取如下规则:{尿布}y{啤酒}。该规则表明望的性质,可以用于关联规则的有效发现。尿布和啤酒的销售之间存在着很强的联系,因为很多父置信度度量通过规则进行推理的可靠性。对于给亲在购买尿布的同时也购买啤酒。零售商们可以使用定的规则XyY,置信度越高,Y在包含X的事务中出现[2]这类规则,帮助他们发现新的交叉销售机会。的可

5、能性就越大。置信度也提供Y在给定X下的条件概率的估计。1关联分析中的基本术语2关联规则挖掘算法1.1项集和支持度计数[4-5]在关联分析中,包含0个或多个项的集合被称为项大多数关联规则挖掘算法通常采用的一种策略收稿日期:2010-04-19作者简介:方玮玮(1976-),女,安徽枞阳人,讲师,硕士,主要从事数据挖掘、粗糙集理论及数据结构方面的研究。第23卷第4期方玮玮:基于关联规则的购物篮分析431是,将关联规则挖掘任务分解为如下两个主要的子任1:k=1务:2:Fk={i&iIICR({i})N@minsup}{发现所(1)频繁项集产生:其目标是发现满足最小支持度有的频繁1-项集}阈

6、值的所有项集,这些项集称作频繁项集。3:repeat(2)规则的产生:其目标是从上一步发现的频繁项4:k=k+1集中提取所有高置信度的规则,这些规则称作强规则。5:Ck=apriori-gen(Fk-1){产生候选项集}通常,频繁项集产生所需的计算开销远大于规则的6:for每个事务tITdo产生所需的计算开销。7:Ct=subset(Ck,t){识别属于t的所有候选}2.1Apriori算法8:for每个候选项集cICtdoApriori算法是第一个关联规则挖掘算法,它开创性9:R(c)=R(c)+1{支持度计数增值}地使用基于支持度的剪枝技术,系统地控制候选项集指10:endfor[

7、6]数增长。对于表1中所示的事务,表2给出Apriori算11:endfor法频繁项集产生部分的一个高层实例。假定支持度值12:Fk={c&cICkCR(c)N@minsup}{提取频是60%,相当于最小支持度计数为3。繁k-项集}表2使用Apriori算法产生频繁项集的例子13:untilFk=U候选1-项集候选2-项集候选3项集14:Result=GFk项计数基集计数项集计数啤酒3{啤酒,面包}2{面包,尿布,牛奶}3面包4{啤酒,尿布}

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。