5第五章 挖掘频繁模式、关联和相关

5第五章 挖掘频繁模式、关联和相关

ID:40709481

大小:1.03 MB

页数:60页

时间:2019-08-06

5第五章 挖掘频繁模式、关联和相关_第1页
5第五章 挖掘频繁模式、关联和相关_第2页
5第五章 挖掘频繁模式、关联和相关_第3页
5第五章 挖掘频繁模式、关联和相关_第4页
5第五章 挖掘频繁模式、关联和相关_第5页
资源描述:

《5第五章 挖掘频繁模式、关联和相关》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第五章挖掘频繁模式、关联和相关张静(Jingzhang@ecust.edu.cn)主要内容2基本概念和路线图有效的和可伸缩的频繁项集挖掘方法挖掘各种类型的关联规则由关联挖掘到相关分析基于约束的关联挖掘小结ECUST--JingZhang什么是频繁模式分析?3频繁模式:数据集中频繁出现的模式(一组项的集合,子序列,子结构等。)最先由Agrawal,Imielinski,andSwami[AIS93]在描述频繁项集和关联规则挖掘的相关文档中提出动机:找到数据之间的内在规律哪些产品经常一起出售?—啤酒和纸尿裤?

2、!用户在买了PC之后接下来很有可能买什么?哪种DNA对新药物敏感?我们能够自动地对网络文档分类么?应用购物篮分析,交叉市场分析,Web日志分析以及DNA序列分析等。为什么频繁模式挖掘是重要的?4频繁模式:数据集本质的并且重要的性质很多重要数据挖掘工作的基础关联,相关以及因果分析序列的,结构化的(例如,子图)模式在时空、多媒体、时间序列以及流数据上的模式分析分类:区分性,频繁模式分析聚类分析:基于频繁模式的聚类数据仓库:冰立方以及立方体聚集语义数据压缩基本概念:频繁项集5TidItemsbought

3、项集:一个或多个项的集合10Beer,Nuts,Diaper20Beer,Coffee,Diaperk-itemsetX={x1,…,xk}30Beer,Diaper,Eggs(absolute)support,or,40Nuts,Eggs,MilksupportcountofX:项集X出现50Nuts,Coffee,Diaper,Eggs,Milk的频率(relative)support,s,事务中包CustomerCustomerbuysboth含X的部分(即,一个事务包含Xbuysdiaper的概率)Anit

4、emsetXisfrequentifX’ssupportisnolessthanaminsupthresholdCustomerbuysbeer基本概念:关联规则6假设:(1)事务数据库,(2)每一个事务是一个项目集列表(例如:顼客一次购买的商品集)找出:所有使目前的项集不另一个项集相关联的规则例子:规则形式:“Body→Ηead[支持度,置信度]”.buys(x,“diapers”)→buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)→grade(x,“A”

5、)[1%,75%]应用*⇒维修协议(商店应该怎样做才能提升维修协议的销售)家电⇒*(商店应该增加其它那些产品的存储量?)基本概念:关联规则7找到所有满足最小支持度和置信度TidItemsbought阈值的规则XY10Beer,Nuts,Diaper20Beer,Coffee,Diapersupport,s,一个事务包含X30Beer,Diaper,EggsY的概率40Nuts,Eggs,Milkconfidence,c,一个事务既包含50Nuts,Coffee,Diaper,Eggs,MilkX也包含Y的条件

6、概率CustomerCustomer令minsup=50%,minconf=50%buysbothbuys频繁模式:Beer:3,Nuts:3,Diaper:4,Eggs:3,diaper{Beer,Diaper}:3关联规则:CustomerBeerDiaper(60%,100%)buysbeerDiaperBeer(60%,75%)极大项集不频繁闭项集8极大项集和频繁闭项集极大项集:频繁项集p,使得p的仸何超项集都丌是频繁的。频繁闭项集:一个频繁的闭的项集,其中项集c是闭的,如果丌存在c的真超集c’,使得

7、每个包含c的事务也包含c‘。ECUST--JingZhang频繁模式挖掘:路线图9根据挖掘的模式的完全性分类频繁项集的完全集、闭频繁项集、极大频繁项集被约束的频繁项集、近似的频繁项集、接近匹配的频繁项集、最频繁的k个项集根据规则中所处理的值类型分类布尔关联和量化关联buys(x,“SQLServer”)^buys(x,“DMBook”)→buys(x,“DBMiner”)[0.2%,60%]age(x,“30..39”)^income(x,“42..48K”)→buys(x,“PC”)[1%,75%]根据规则

8、中所涉及的数据维数分类单维关连和多维关联ECUST--JingZhang频繁模式挖掘:路线图10根据规则集所涉及的抽象层分类单层关联规则和多层关联规则age(x,“30..39”)→buys(x,“laptopcomputer”)age(x,“30..39”)→buys(x,“c

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。