欢迎来到天天文库
浏览记录
ID:42975351
大小:121.00 KB
页数:6页
时间:2019-09-24
《大型超市“购物篮”分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一、问题重述作为超市的经理,经常关心的问题是顾客的购物习惯。他们想知道:“什么商品组或集合顾客多半会在一次购物时同时购买?”。现在假设你们是某超市的市场分析员,已经掌握了该超市近一个星期的所有顾客购买物品的清单和相应商品的价格,需要你们给超市经理一个合理的“购物篮”分析报告,并提供一个促销计划的初步方案。问题一:附件1中的表格数据显示了该超市在一个星期内的4717个顾客对999种商殆的购买记录,对数据进行分析,试建立一种数V模型,使该模型能定量表达超市小多种商品间的关联关系的密切程度。问题二:根据问题1建立的模型,通过一种快速有效的方法从
2、附件1屮的购买记录中分析出哪些衙品是最频繁被同时购买的,找到的最频繁被同时购买的商品数量越多越好。问题三:附件2给出了这999屮商品的对应的利润,根据在问题1、问题2屮建立的模型,设定一种初步的促销方案,使超市的效益进一步增人。二、模型的假设1、假设各个商品的利润保持不变。2、假设表格中的数据能真实地反映当地消费者的购物情况。3、假设短时间内商品的销售情况维持稳定,不会出现大幅波动。符号解释说明si组合i的支持度c(A=>B)规则A=>B的置信度c(B=>A规则B=>A的置信度cicismin最小支持度cmin最小置信度P关联密切系数H促
3、销系数四、问题分析本题是关于大型超市“购物篮”的分析问题,涉及到数据挖掘、关联规则等相关问题。本题的三个问题是层层递进的关系,要求通过对商品购买数据的分析,找到关联程度较高口购买次数较高的商品,最后设计出合理的超市促销方案。问题一,由于购物篮分析是关联规则挖掘的一个典型案例,因此我们采川一种最冇影响的挖掘布尔关联规则[1]频繁项集的算法——Apriori算法[2・3]。利用其基本思想,进行了商品两种Z间的支持度和置信度计算,在定义最小支持度和最小置信度后,进行筛选得到关联规则集。为定量地表达超市中多种商品间的关联关系的密切程度,本文引入一
4、个关联密切系数进行衡量分别对12个组合求解平均置信度,进而得到该组的关联密切系数。由此认为,关联密切系数越人的商品组合,其关联关系密切程度较高。问题二,在得到商品两种关联数据的棊础上,仅考虑商品支持度的大小,求得在一定最小支持度下被频繁地同时购买的商品组合。同时为使商甜数量尽量多,我们在两种组合的情况下延伸至三种组合,四种组合”,,以此得到尽可能多的商品被频繁同时购买的信息,尽量靠近最频繁被同时购买且商品数量越多的双重目标。问题三,在结合商品利润的条件下,考虑两种组合屮各商品的利润、支持度和置信度,分别计算出三者的乘积再求和,记为促销系数
5、H,并以此作为衡量此纽合商品是否进行促销的标准。当结果较高时,我们就采取就近摆放、打折促销、消费送礼等捆绑销售方式式得到一种促销方案,在方便顾客的购买的同时,增加消费者对该超市的冇好感和信任度,最终使得超市的效益进一步增大。五、模型的建立和求解模型一:基于Apriori算法的关联规则挖掘[4]模型1.模型的准备设:1={订,i2......jm}是所冇项n的集合.D是所冇事务的集合(即数据库),每个事务T是一些项冃的集合,T包含在D中,每个事务可以用唯一的标识符TID来标识.设X为某些项冃的集合,如果x包含在T中,则称事务T包含X,关联规
6、则则表示为如下形式(X包含在T)=>(Y包含在T)的蕴涵式,这里X包含在I屮,Y包含在I中,并且XAY=O.其意义在于一个事务中某些项的岀现,可推导岀另-•些项在同一事务中也出现(为简单化,将(X包含在T)=>(Y包含在T)表示为X=>Y,这里称为,关联,操作,X称为关联规则的先决条件,Y称为关联规则的结果).事务数据库D屮的规则X=>Y是由支持度s(support)和置信度c(confidence)约束,宜信度表示规则的强度,支持度表示在规则小出现的频度。数据项集X的支持度s(X)是D屮包含X的事务数量打D的总事务数虽:Z比,但为下文便
7、于叙述,数据项集X的支持度是用数据库D中包含X的数量來表示;规则X=>Y的支持度s定义为:在D屮包含XUY的事务所占比例为s%,表示同时包含X和Y的事务数量与D的总事务量之比。用该项集出现的次数除以TID总数即可得到,用如下公式表示:Support(X)=Count(X)/Count(TID)规则X=>Y的置信度c定义为:在D中,c%的事务包含X的同吋也包含Y,表示D中包含X的事务中有多大可能性包含Y.依据所求的频繁项集,及所求得的支持度,运用如下公式求解:Confidence(X=>Y)=Support(XUY)/Support(X)最
8、小支持度阈值minsupport表示数据项集在统计意义上的最低主要性.最小置信度阈值mincontinence表示规则的最低可靠性.如果数据项集X满足X.support>=minsupport
此文档下载收益归作者所有