数据挖掘4关联规则资料.ppt

数据挖掘4关联规则资料.ppt

ID:56373771

大小:592.00 KB

页数:41页

时间:2020-06-14

数据挖掘4关联规则资料.ppt_第1页
数据挖掘4关联规则资料.ppt_第2页
数据挖掘4关联规则资料.ppt_第3页
数据挖掘4关联规则资料.ppt_第4页
数据挖掘4关联规则资料.ppt_第5页
资源描述:

《数据挖掘4关联规则资料.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据挖掘发现知识的类型概念描述(广义知识)关联知识分类知识预测型知识偏差型知识从数据分析角度出发,数据挖掘可以分为两种类型描述性数据挖掘:以简洁概述的方式表达数据中的存在的一些有意义的性质预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为Chapter4 AssociationRule&RoughSet4.1关联规则概述4.2经典的关联规则挖掘算法4.3从事物数据库中挖掘多层关联规则WhatIsFrequentPatternAnalysis?Frequentpattern:apattern(asetofitems,subsequences,substructu

2、res,etc.)thatoccursfrequentlyinadatasetFirstproposedbyAgrawal,Imielinski,andSwami[AIS93]inthecontextoffrequentitemsetsandassociationruleminingMotivation:FindinginherentregularitiesindataWhatproductswereoftenpurchasedtogether?—Beeranddiapers?!WhatarethesubsequentpurchasesafterbuyingaPC?Whatkin

3、dsofDNAaresensitivetothisnewdrug?Canweautomaticallyclassifywebdocuments?ApplicationsBasketdataanalysis,cross-marketing,catalogdesign,salecampaignanalysis,Weblog(clickstream)analysis,andDNAsequenceanalysis.关联规则模式是属于描述型模式,发现关联规则的算法属于无监督学习的方法。关联规则的意义和度量关联规则挖掘的主要对象是事务数据库(transactionDB),针对的应用大多是售货

4、数据,一般情况下,一个事务由如下几个部分组成:事务处理时间,一组顾客购买的物品,物品的数量及金额,顾客的标识号。在事务数据库中,考察一些涉及到许多物品(项)的事务:事务1中出现了物品甲,事务2中出现了物品乙,事务3中同时出现了物品甲和乙,then,物品甲和物品乙在事务中的出现相互之间是否有一定的规律?在数据库知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大影响。例如某超级市场的销售系统,记录了5个顾客的购物清单流水号所购物品清单1球鞋、手套、网球拍2摩托车、手套、头盔3球鞋、摩托车

5、、手套、头盔4头盔5摩托车、头盔购买摩托车的人很大可能同时购买头盔有些数据不像售货数据那样很容易就能看出一个事务是哪些物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。例如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40岁以上,工作在A区的投保人当中,有45%的人曾经向保险公司索赔过。在这条规则中,“年龄在40岁以上”是物品甲,“

6、工作在A区”是物品乙,“向保险公司索赔过”则是物品丙。可以看出来,A区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。事务与项集设:R={I1,I2,…,In}是一组项集(项目集,属性集,itemset)W是一组与R相关的事务集。W中的每个事务T是一组项(属性)。假设有一个项集A,一个事务T,如果A∈T,则称事务T支持项集A。例如:R={I1,I2,I3,I4,I5,I6,I7}事务集W:事务T1I1,I2,I5事务T2I1,I5,I7事务T3I2,I4,I6,I7事务T4I3,I7事务T5I5,I6假设有项集A={I1,I5},则称事务T1,事

7、务T2支持项集A。规则表示由事务与项集表,最终得到的关联规则是如下形式的一种蕴涵式:TIDItemSetT1牛奶,面包,黄油T2牛奶,面包,啤酒T3面包,黄油,啤酒T4黄油,酱油,餐巾纸T5餐巾纸,拖把R={牛奶,面包,黄油,啤酒,酱油,餐巾纸,拖把}A={面包},B={黄油}???A={面包},B={拖把}???A={餐巾纸,牛奶},B={黄油}???……Howtoevaluatethisrule?描述关联规则属性的四个参数(1)可信度(condifence),设W中支持物品集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。