资源描述:
《第6章现代数据挖掘技术与发展.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第6章现代数据挖掘技术与发展本章学习目标:(1)通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构。(2)通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。(3)通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。(4)经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。现代数据挖掘技术与发展6.1知识挖掘系统的体系结构6.2现代挖掘技术及应用6.3知识发现工具与应用6.4数据挖掘技术的发展练
2、习6.1知识挖掘系统的体系结构6.1.1知识发现的定义·知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。·知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。·知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。6.1.2知识发现系统的结构知识发现系统的结构由知识发现系统管理器、知识库、商
3、业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价和知识发现描述等部分组成(图6.1)。数据仓库知识库数据库接口数据选择知识发现引擎知识发现评价知识发现描述知识发现管理器商业分析员图6.1知识发现系统结构1.知识发现系统管理器控制并管理整个知识发现过程2.知识库和商业分析员知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。3.数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信。4.数据选择确定从数据仓库中需要抽取的数据及数据结构5.知识发现引擎将知识库中的抽取算法提供给数据选择
4、构件抽取的数据6.发现评价有助于商业分析员筛选模式,选出那些关注性的信息7.发现描述发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。频繁模式是频繁的出现在数据集中的模式如项集、子序或者子结构动机:发现数据中蕴含的内在规律那些产品经常被一起购买?---啤酒和尿布?买了PC之后接着都会买些什么?哪种DNA对这种新药敏感我们能够自动的分类WEB文档吗?应用购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等什么是频繁模式分析?6.2现代挖掘技术及应用揭示数据集的内在的、重要的特性作
5、为很多重要数据挖掘任务的基础关联、相关和因果分析序列、结构(e.g.子图)模式分析时空、多媒体、时序和流数据中的模式分析分类:关联分类聚类分析:基于频繁模式的聚类数据仓库:冰山方体计算频繁模式挖掘的重要性购物篮分析如果问题的全域是商店中所有商品的集合,则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示(e.g.0001001100)关联规则的两个兴趣度度量支持度置信度通常,如果关联规则同时满足最小支持度阈
6、值和最小置信度阈值,则此关联规则是有趣的关联规则:基本概念给定:项的集合:I={i1,i2,...,in}任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得每个事务由事务标识符TID标识;A,B为两个项集,事务T包含A当且仅当则关联规则是如下蕴涵式:其中并且,规则在事务集D中成立,并且具有支持度s和置信度c基本概念——示例项的集合I={A,B,C,D,E,F}每个事务T由事务标识符TID标识,它是项的集合TID(2000)={A,B,C}任务相关数据D是数据库事务的集合D支持度s是指事务集D中包含的百分比置信度c是指D中包含A
7、的事务同时也包含B的百分比假设最小支持度阈值为50%,最小置信度阈值为50%,则有如下关联规则AC(50%,66.6%)CA(50%,100%)同时满足最小支持度阈值和最小置信度阈值的规则称作强规则规则度量:支持度和置信度CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer6.2现代挖掘技术及应用6.2.1规则型现代挖掘技术及应用1.关联规则的基本概念布尔关联规则、单维规则buys(x,“computer”)=>buys(x,“finacial_management_software”)
8、量化关联规则、多维关联age(“30..40”)∧income(“42000..50000”)=>buys(x,“high_resolution_TV”)多层关联规则单层关联规则age(x,“