资源描述:
《数据挖掘中的关联规则》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、关联规则挖掘在商业销售中的应用戚芸(班级:数科院08(6)班学号:08213118)[摘要]数据挖掘是近些年企业界相当热门的话题,它利用统计与人工智能的算法,从庞大的企业历史资料中,找出隐藏的规律并简历准确的模型,用以预测未来。其中关联规则的挖掘是数据挖掘的一个重要问题。[关键字]关联规则支持度置信度增益一、关联规则的概述关联规则一般用以发现交易数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式,比如购买了某一种商品对购买其他商品的影响,这种规则可以应用于超市商品货架设计、货物摆放以
2、及根据购买模式对用户进行分类等。进而引伸至寻找一个变量间不同选择之间的关系,或寻找不同变量间的关系。以交易数据为例描述关联规则:给定一个交易集,该交易集包含一系列商品,则一条关联规则可以表示为:X→Y二、关联规则的分类(1)按关联规则中处理变量的类别,可将关联规则分为布尔型和数值型布尔型关联规则中对应变量都是离散变量或类别变量,它显示的是离散型变量间的关系,比如“买啤酒→买婴儿尿布”;数值型关联规则处理则可以与多维关联或多层关联规则相结合,处理数值型变量,如“月收入5000元→每月交通费约800元”
3、。(2)按关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规则单层关联规则中,所有变量都没有考虑到现实的数据具有多个不同的层次;而多层关联规则中,对数据的多层性已经进行了充分的考虑。比如“买夹克→买慢跑鞋”是一个细节数据上的单层关联规则,而“买外套→慢跑鞋”是一个较高层次和细节层次间的多层关联规则。(3)按关联规则中涉及到的数据维数可以分为单维关联规则和多维关联规则单维关联规则只涉及数据的一个维度(或一个变量),如用户购买的物品;而多维关联规则则要处理多维数据,涉及多个变量,也就是说,单维关
4、联规则处理单一属性中的关系,而多维关联规则则处理多个属性间的某些关系。比如“买啤酒→买婴儿尿布”只涉及用户购买的商品,属于单维关联规则,而“喜欢野外活动→购买慢跑鞋”涉及到两个变量的信息,属于二维关联规则。三、关联规则的作用关联规则是数据挖掘中作用比较广泛的知识之一,具体而言,关联规则的作用可以表现在以下几个方面:(1)交叉销售,基于消费者购买模式,主动进行交叉销售;(2)邮购目录的设计,将经常会一起购买的东西置于邮购目录较近的位置,促进销售。(3)商品摆放,基于商店不同的经营理念,如果将会经常一起
5、购买的东西较近摆放,客户会比较方便购买,如果有意放在购物通道的两端,顾客寻找的过程中可以增加其他物品销售的可能性;(4)流失客户分析,可以分析是否是某些关键商品的缺失等;(5)基于购买模式进行客户区隔。一、关联规则的判断标准做关联规则分析之前,首先我们要明白,关联规则是单向的。超市里我们可能发现“买啤酒则买婴儿尿布”的关联性很强,但“买婴儿尿布就买啤酒”的关联性却很弱。关联规则左右都可以是多种物品或特性的组合。任何两个变量间都可能存在着潜在的关联,那么怎样决定哪些关联确实具有代表性,真的很有作用,哪
6、些关联只是假象或者毫无用处呢?在考察关联规则时,需要同时考虑三条独立的标准,即支持度(support,也称广泛度,普遍度。下文以sup(.)表示括号内关联规则的支持度)、置信度(confidence,也称预测度。下文以con(.)表示)和增益(lift,下文以lif(.)表示)。表1是一个假设的购物篮数据库中的一部分,我们以该数据为例说明关联规则的三个标准。表1某体育用品店部分销售数据(1)交易项目成交次数夹克球鞋300滑雪衫,球鞋100夹克,滑雪衫,球鞋100球鞋50慢跑鞋40夹克,慢跑鞋100滑
7、雪衫,慢跑鞋200衬衣10夹克40滑雪衫60合计10000 假设该商店运动鞋即由球鞋和慢跑鞋组成,上衣由衬衣与外套组成,而外套又包括夹克与滑雪衫两种。将表1整理成交叉表形式如表2:表2某体育用品店部分销售数据(2)运动鞋Y1单独购买合计球鞋Y11慢跑鞋Y12上衣X衬衣X11010外套X2夹克X2140010040540滑雪衫X2220020060460单独购买5040合计6503401000该表与一般交叉表有所不同,以球鞋一列为例,表中数据表示球鞋交易中与夹克一起交易的有400笔,与滑雪衫一起交易的
8、有200笔,单独购买球鞋的有50笔,共650笔交易涉及到球鞋。其他各行与列的含义与此相同。总交易笔数1000并不等于边缘交易笔数之和,因为其中还包括独立交易,还有三个或以上交易项目一起达成的交易。以上述数据为例,可以发现挖掘出若干条关联规则,比如:“夹克→球鞋(X21→Y11)”;“外套→慢跑鞋(X2→Y12)”;“运动鞋→滑雪衫(Y1→X22)”等等。关联规则的支持度、置信度和增益的含义分别如下。(1)支持度sup(.)表示在购物篮分析中同时包含关联规则左右两边物品