资源描述:
《数据仓库原理设计与应用第6章》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第6章现代数据挖掘技术与发展本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。(2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。(3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。(4)经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。现代数据挖掘技术与发展6.1知识挖掘系统的体系结构6.2现代挖掘技术及应用6.3知识发现工具与应用6.4数据挖掘技术的发展练习6
2、.1知识挖掘系统的体系结构6.1.1知识发现的定义·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商业分析员
3、、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构1.知识发现系统管理器控制并管理整个知识发现过程2.知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。3.数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。4.数据选择确定从数据仓库中需要抽取的数据及数据结构5.知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数
4、据6.发现评价有助于商业分析员筛选模式,选出那些关注性的信息7.发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。6.2现代挖掘技术及应用6.2.1规则型现代挖掘技术及应用1.关联规则的基本概念buys(x,“computer”)=>buys(x,“finacial_management_software”)age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolution_TV”)布尔关联规则量化关联规则单维规则多维关联多层关联
5、规则单层关联规则age(“30..40”)=>buys(x,“IBMcomputer”)(6.3)age(“30..40”)=>buys(x,“computer”)(6.4)2.关联规则的应用目标置信度或正确率可以定义为:(6.5)覆盖率可以定义为“兴趣度”为目标的关联规则3.关联规则的算法Apriori算法1.找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。2.使用第1步找到的频集产生所期望的规则。Apriori算法的第1步采用了递归方法,算法表示为L1={large1-itemsets};//产生频繁1
6、项集L1for(k=2;Lk-1≠○;k++)do//循环产生频繁2项集L2直到某个r使Lr为空beginCk=apriori-gen(Lk-1);//产生k-项集的候选集foralltransactionst∈DdobeginCt=subset(Ck,t);//事务t中包含的候选集forallcandidatesc∈Ctdoc.count++;endLk={c∈Ck
7、c.count≥minsup}endAnswer=UkLk第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,…,Ik,k≥2,Ij∈I,
8、那么只有包含集合{I1,I2,I3,…,Ik}中的项的规则最多有k条。这种规则形如I1,I2,I3,…Ii-1,Ii+1…,Ik→Ii,。这些规则置信度必须大于用户给定的最小置信度。数据库DC1L1事务标识项集项集支持度项集支持度A11,3,4扫描数据库D{1}2{1}2A22,3,5{2}3比较支持度{2}3A31,2,3,5{3}3{3}3A42,5{4}1{5}3{5}3由L1产生C2C2L2项集项集支持度项集支持度{1,2}扫描数据库D{1,2}1{1,2}2{1,3}{1,3}2比较支持度{2,3}2{1,5}{1,5}1{2,5}
9、3{2,3}{2,3}2{3,5}2{2,5}{2,5}3{3,5}{3,5}2项集扫描数据库D项集支持度{2,3,5}{2,3,5}2由L2产生C3L34.关联规