资源描述:
《从货篮分析谈数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、从货篮分析谈数据挖掘新闻传播学院张悦09523467关键词:货篮数据摘要:货篮分析关联规则的基本概念数据挖掘数据挖掘定义的解释数据淘金——金苹果文库数据淘金之方法篇数据淘金之工业应用篇数据淘金之社会篇数据淘金之科研篇1、货篮分析全球最大的零售商沃尔玛(Walmart)通过对某地区顾客购物的数据分析后发现,很多周末购买尿布的顾客也同时购买啤酒。经过深入研究后发现,该地区家庭买尿布的大多是孩子爸爸。孩子爸爸们下班后要到超市买尿布,同时要“顺手牵羊”带走啤酒,好在周末看棒球赛的同时过把酒瘾。后来沃尔玛的这个连锁店就把尿布和啤酒摆放
2、得很近,从而双双促进了尿布和啤酒的销量。这个故事被公认是商业领域知识发现的典故。2、关联规则的基本概念一个关联规则是形如XÞY的蕴涵式,这里XÌI,YÌI,并且XÇY=F。规则XÞY在交易数据库D中的支持度(support)是交易集中同时包含X和Y的交易数与所有交易数之比,记为support(XÞY),即support(XÞY)=
3、{T:XÈYÍT,TÎD}
4、/
5、D
6、规则XÞY在交易集中的可信度(confidence)是指包含X和Y的交易数与包含X的交易数之比,记为confidence(XÞY),即confidence(XÞ
7、Y)=
8、{T:XÈYÍT,TÎD}
9、/
10、{T:XÍT,TÎD}
11、关联规则基本模型与概念设I={i1,i2,…,im}为所有项目的集合,D为事务数据库,事务T是一个项目子集(TÍI),每个事务具有惟一的标识Tid(如交易号).设A是一个I中项的集合,如果AÍT,那么称交易T包含A。若A中包含k个项目,称其为k项集.l项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度.l如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(大项集)规则实例ForruleAÞC:support=support({A
12、&C})=50%confidence=support({A&C})/support({A})=66.6%l强规则l如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。l最小支持度表示了一组物品集在统计意义上的需满足的最低程度;最小可信度反应了关联规则的最低可靠度。lApriori算法l是关联规则模型中的经
13、典算法l源于算法使用了频繁项集性质的先验(Prior)知识.l分两步:1.通过迭代,检索出事务数据库中所有频繁项集.2.利用频繁项集构造出满足最小信任度阈值的规则.其中挖掘和识别出所有频繁项集是该算法的核心,占整个计算量的大部分.l由m个项目形成的不同项集达2m-1个,是个NP完全问题.l潜在频繁k项集集合Ck,频繁k项集集合Lk,m个项目构成的k项集集合Cmk,则LkÍCkÍCmkTheAprioriprinciple:Anysubsetofafrequentitemsetmustbefrequent非频繁项集的超集一定是
14、非频繁的数据挖掘DataMining数据挖掘知识发现是什么l随着计算机应用及互联网的日益普及,人们面对“被数据淹没,却又饥饿于知识(丰富的数据与贫乏的知识)”的挑战,不同领域的人们都期待从海量数据中挖掘出知识,将丰富的信息变为知识,这就产生了“数据挖掘与知识发现”学科。l运用数据挖掘技术在海量数据中我们可以挖出“金子”来。数据挖掘与知识发现数据挖掘DM(DataMining)只是数据库中知识发现KDD(KnowledgeDiscoveryinDataBase)的一个步骤,但又是最重要的一步。因此,往往可以不加区别地使用知识发
15、现和数据挖掘。一般在研究(人工智能)领域被称作数据库中知识发现,在工程领域(统计界)则称之为数据挖掘知识发现(数据挖掘)的定义Thenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata-Fayyad,Platetsky-Shapiro,Smyth(1996)在1995年第一届KDD大会上给出了KDD的定义:“非平凡地抽取数据中隐含的、先前未知的、潜在有用的知识”[1][2][
16、3]。[1]G.Piatetsky-ShapiroandW.J.Frawley.KnowledgeDiscoveryinDatabases.AAAI/MITPress,1991[2]U.M.Fayyad,G.Platetsky-Shapiro,P.Smyth,andR.Uthurusamy