关联规则挖掘概述-戴稳胜

关联规则挖掘概述-戴稳胜

ID:37327905

大小:413.16 KB

页数:6页

时间:2019-05-21

关联规则挖掘概述-戴稳胜_第1页
关联规则挖掘概述-戴稳胜_第2页
关联规则挖掘概述-戴稳胜_第3页
关联规则挖掘概述-戴稳胜_第4页
关联规则挖掘概述-戴稳胜_第5页
资源描述:

《关联规则挖掘概述-戴稳胜》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第17卷总第55期统计与信息论坛Sept.,20022002年9月Statistics&InformationTribuneVol.17No.5【统计学与数据挖掘】关联规则挖掘概述*中国人民大学统计学系数据挖掘中心(中国人民大学统计学系,北京100872)摘要:文章讨论了关联规则的概念与分类,采用简单实例介绍了关联规则判断标准以及计算机实现过程等几方面内容,全面介绍了关联规则的相关知识。关键词:关联规则;支持度;置信度;增益中图分类号:C812文献标识码:A文章编号:1007-3116(2002)05-0004-06关联规则的挖掘是数据挖掘的重要问题之一,随着大型连锁零售商店在零售市

2、场上份额的增加,越来越多的超市或连锁店希望发现其庞大的交易数据库中隐含的相关销售信息,因此关联规则的挖掘引起了研究人员与企业界人士的共同关注。一、关联规则的概念与分类做关联规则分析之前首先要明白,关联规则是单向的,它是指某类项目或特征与另一类项目或特征间所存在的单向影响关系。一般相关系数对两类特征或项目的描述都是对称的,而且只能处理定序以上层次的数据。而实际经济生活中常会出现两方面的关系并不对称,或者数据仅仅是定类层次的情况。此时用关联规则来描述相当有效,而且对经济决策也相当有用。因为关联规则通常用于购物篮分析,我们不妨以购物篮数据为例说明关联规则的概念及其分类。给定一个交易集,其中

3、的每一组交易都包含一组项目(或者说包含一组商品组合),那么关联规则可以表示为:X→Y(1)其含义是,在所有交易记录中,包括商品X的交易有包括商品Y的趋势,其中X和Y既可以是单一商品,也可以是商品组合,如果是商品组合,则X∩Y=U。关联规则按不同的标准可以分成不同的类别。常见分类包括以下三种。1、按关联规则中处理的变量类别,可以分为布尔型和数值型布尔型关联规则中两边变量都是离散变量或类别变量,比如“买啤酒→买婴儿尿布”;数值型关联规则处理则可以与多维关联或多层关联规则相结合,处理数值型变量,如“月收入5000元→每月交通费约800元”。但是要注意,关联规则本身不能处理连续型数值变量,寻

4、求这类变收稿日期:2002-07-11*本中心成员有袁卫、吴喜之、谢邦昌、易丹辉、王星、薛薇、赵绍忠、戴稳胜、匡宏波、伍业峰等。本文执笔人为戴稳胜、王星、赵绍忠。—4—[统计学与数据挖掘]中国人民大学统计学系数据挖掘中心:关联规则挖掘概述量的关联规则前要对它进行处理,常见处理即将该变量转换成类别变量,如高、中、低等,然后再进行处理。2、按关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规则单层关联规则是指规则没有考虑现实世界中数据的分层,而多层关联规则则充分考虑了数据的多层性。比如“买夹克→买慢跑鞋”是一个细节数据上的单层关联规则,而“买外套→慢跑鞋”是一个较高层次和细节层次

5、间的多层关联规则。3、按关联规则中涉及到的变量数目可以分为单维(一元)关联规则和多维(多元)关联规则单维关联规则只涉及数据的一个维度(即一个变量),如用户购买的物品;而多维关联规则要处理多维数据,涉及多个变量。单维关联规则处理单一属性中的关系,而多维关联规则处理的是多个属性间的某些关系。比如“买啤酒→买婴儿尿布”只涉及用户购买的商品,属于单维关联规则,而“喜欢野外活动→购买慢跑鞋”涉及到两个变量的信息,属于二维关联规则。二、关联规则的选择标准任何两个变量间都可能存在着潜在的关联,判断关联规则可以从两步着手,第一步从技术角度提出一些限制条件,只有满足这些条件的关联规则才会提出作进一步分

6、析;第二步从用户主观角度考虑。即使是满足技术条件的关联规则,也还要满足两个条件才能有用,这两个条件就是,该规则必须出乎常识或意料之外,而且规则必须具有潜在的作用。然而目前任何技术与算法都无法精确判断哪些知识属于常识,也无法判断哪些属于具有潜在作用的规则。因为不同的用户、不同的出发点对规则的作用认识就不同。对甲没有作用的规则,对乙可能就具有很大作用,这不仅取决于技术与常识的结合,而且还取决于决策者的专业知识及决策水平。因此关联规则的挖掘最终离不开人的作用。1、关联规则选择的技术标准下面仅仅从技术角度引进三条选择关联规则的标准,即支持度(support,也称广泛度,普遍度。下文以sup(

7、.)表示,括号内是相应的关联规则)、置信度(confidence,也称预测度,下文以con(.)表示)和增益(lift,下文以lif(.)表示)。以一个假设的数据来说明这三个条件。假定某体育用品商店经营体育服装与鞋类,其中运动上装包括衬衣、外套,外套包括夹克与滑雪衫两种,而运动鞋则包括球鞋和慢跑鞋,其关系如下图所示:图1关联规则示意例:商品层次结构图—5—统计与信息论坛2002年第5期而表1则是假设的购物篮数据库中的一部分:表1某体育用品店部分销售数据交易

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。