第六章 挖掘大型数据库中的关联规则

第六章 挖掘大型数据库中的关联规则

ID:43207784

大小:5.90 MB

页数:65页

时间:2019-10-02

第六章 挖掘大型数据库中的关联规则_第1页
第六章 挖掘大型数据库中的关联规则_第2页
第六章 挖掘大型数据库中的关联规则_第3页
第六章 挖掘大型数据库中的关联规则_第4页
第六章 挖掘大型数据库中的关联规则_第5页
资源描述:

《第六章 挖掘大型数据库中的关联规则》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《数据挖掘》主讲:王名扬信息与计算机工程学院2引言—要挖掘知识的类型概念描述:特征化和比较;关联规则;分类/预测;聚类分析;其他的数据挖掘任务。第6章挖掘大型数据库中的关联规则引言关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。从大量商业事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和促销分析等。2引言如何从事务DB或关系DB的大量数据中挖掘出关联规则知识?什么样的关联规则才是最有意义的?如何才能使挖掘过程尽快发现有价值的关联规则知识?这是本章要讨论的内容。2第6章6.1关联规则挖掘6.2由事务数据

2、库挖掘单维布尔关联规则6.3由事务数据库挖掘多层关联规则6.4由事务数据库和数据仓库挖掘多维关联规则7学习目的掌握关联规则挖掘算法--Apriori算法。理解多层关联规则挖掘及其方法;理解多维关联规则挖掘及其方法。6.1关联规则挖掘关联规则挖掘(Associationrulemining):关联规则挖掘的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号组成。关联规则挖掘用以挖掘一次交易中,物品之间同时出现的规律的知识模式,以反映顾客的购买行为。更确切的说,关联规则是通过量化的数字来描述物品X的出现

3、对物品Y的出现有多大的影响。以零售业为例,通过对销售数据的关联分析,体育用品商店可以发现隐含在数据中的规律:“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服”等等。关联规则挖掘购物篮分析购物篮分析是关联规则挖掘的最初形式。如,某商店经理可能更想了解如下的购物习惯:“顾客多半会在购物时同时购买什么商品组或集合?”为解答这个问题,可以在商店顾客事务零售数据库上进行购物篮分析。分析的结果可用于市场规划、广告策划和分类设计。45设商店中所有销售商品为一个集合,每个商品均为一个布尔变量,布尔变量用来表

4、示该商品是否被(一个)顾客购买。则,每个购物篮(事务数据库)可以用一个布尔向量表示。分析该布尔向量,得到反映商品频繁关联或同时购买的购买模式。购物篮分析computer=>financial_management_software[support=2%,confidence=60%]关联规则的支持度(support)2%表示:全部事务中,有2%的交易同时购买计算机和财务管理软件。关联规则的置信度(confidence)60%表示:购买计算机的顾客中,有60%也同时购买了财务管理软件。6购物篮分析例如,在购买计算机的同时购买财务管理软件,可

5、用如下关联规则表示:1.关联规则的基本概念?关联规则挖掘的基本概念1)事务数据库:设I={i1,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tn}是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上的一个子集。示例:购物记录I是全部物品集合,如商场现有的所有商品;D是购物清单,如顾客的购物清单;D中的每个元组ti代表一次事务(商业行为),是一次购买物品的集合(I的一个子集)。基本概念2)支持度(support):支持度是模式为真的任务相关的元组(或事务)所占的百分比。对于形如“”的关联规

6、则,支持度定义为:其中,A、B是项目的集合。示例:假定任务相关数据由AllElectronics的计算机部的事务数组成,一个支持度为30%的关联规则:意味着在计算机部的所有顾客中,有30%同时购买了计算机(A)和软件(B)。基本概念3)置信度(certainty):每个发现的模式都有一个表示其有效性或值得信赖性的度量。对于形如“”的关联规则,其有效性度量为置信度,定义为:其中,A、B是项目的集合。示例:假定任务相关数据由AllElectronics的计算机部购买物品的事务数组成,一个置信度为85%的关联规则:意味着买计算机(A)的顾客中,

7、有85%也同时购买了软件(B)。基本概念4)强关联规则:置信度表示规则的可信度;置信度小:规则无意义支持度表示模式在事务数据库中的出现频率;支持度小:规则使用面窄同时满足用户定义的最小置信度和最小支持度阈值的关联规则,称为强关联规则(strongassociationrule),并被认为是有趣的。2.关联规则的分类?(1)基于规则中处理的变量类别布尔型:离散的、可枚举的、种类化的如:性别=“男”=>职业=“网络工程师”数值型:含有定量的数据项如,性别=“男”=>收入=“3500”关联规则的分类:(2)基于规则中数据的抽象层次单层关联规则:

8、所有的变量都不考虑层次如:性别=“男”=>职业=“网络工程师”多层关联规则:考虑变量的不同层次性如,数码相机=>三星手机,(数码相机是三星数码相机的较高层抽象)再如,数码相机=>手机(数码相机

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。