资源描述:
《数据挖掘原理和算法教案.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘原理与算法教案讲授:王志明w3z2m湖南农业大学理学院信息科学系第一章绪论教学目的:掌握数据挖掘的概念,背景,基本理论,基本应用,发展趋势教学重点难点:数据挖掘的概念,粗糙集方法教学课时:2教学过程:一、概念数据挖掘(Datamining)属一交叉学科,融合了数据库技术(Database),人工智能(ArtificialIntelligence),机器学习(MachineLearning),统计学(Statistics),知识工程(KnowledgeEngineering),面向对象方法(Object-OrientedMethod
2、),信息检索(InformationRetrieval),高性能计算(High-PerformanceComputing)以及数据可视化(DataVisualization)等技术。联机事物处理(OnLineTransactionProcessing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。知识:广义讲就是数据、信息的表现形式。人们常把概念、规则、模式、规律和约束等看成知识。数据挖掘:又称数据库中的知识发现(KnowledgeDiscoveryinDatabas
3、e,KDD),就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单的说就是从大量数据中提取或挖掘知识。数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。二、数据挖掘产生与发展1)查询、统计、报表等简单传统的数据处理无法获取知识。这样促使数据挖掘技术的发展。利用数据仓库存储数据。2)数据挖掘技术产生的技术背景:(1)数据库、数据仓库、Internet等信息技术的发展;(2)计算机性能的提升;(3)统计学和人工智能等数据分析方法的应用。3)数据挖掘技术发展应用以及重点需要的
4、研究的方面:(1)商业中的应用(2)与特定数据存储类型的适应问题(3)大型数据的选择与规格化问题(4)数据挖掘系统的构架与交互式挖掘技术(5)数据挖掘语言与系统的可视化问题(6)数据挖掘理论与算法研究三、数据挖掘的分类见书P11四、广义知识挖掘1、概念描述,包括特征性描述和区别性描述2、多维数据分析,如求和,计数,平均,最大值等3、多层次概念描述(1)模式分层;(2)集合分组分层;(3)操作导出层;(4)基于规则分层五、类知识挖掘1、分类:决策树、贝叶斯分类、神经网络、遗传算法与进化理论、类比学习、粗糙集、模糊集等2、聚类:基于划分的聚类
5、算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法六、预测型知识挖掘1、趋势预测分析2、周期分析模式3、序列模式4、神经网络七、粗糙集方法粗糙集(RoughSet)是波兰数学家Z.Pawlak于1982年提出的。粗糙集以等价关系(不可分辨关系)为基础,用于分类问题。它用上、下近似(upperapproximation,lowerapproximation)两个集合来逼近任意一个集合,该集合的边界线区域被定义为上近似集和下近似集之差集。1、等价粗糙集把客观世界抽象为一个信息系统,一个信息系统是一四元组S=(
6、U,A,V,f)的定义为:U:是一个非空有限对象(元组)集合,U={x1x2…xn},其中xi为对象(元组)。A:是对象的属性集合,A={A1,A2,…,An},A常分为两个不相交的子集,即条件属性C和决策属性D,V:是属性值的集合,V={V1,V2,…,Vn},Vi是Ai的值域。f:是信息函数,f:对于A中任意一个属性a,若两记录和它们的属性值相同,称和是对属性a的等价关系。属于同一等价关系的归位一个等价类。2、上近似和下近似1、设U是对象(事例)的集合U={x1x2…xn};B是属性集A的子集,R(B)是U上的二元等价关系,,若对任意
7、集合O,B是属性集A的子集,则O的下近似定义为:这里表示x在R(B)上的等价类。上近似定义为:3、约简设有两属性集,是的真子集,如果,则称可归约为,若属性集B不可归约,则称B为U的一个约简或归约子。4、依赖度设有两属性集P和Q,则P对Q的属性依赖度定义为:,其中,表示集合X在属性集上的下近似。设,C是条件属性和D是决策属性,则属性重要度定义为:全集U可以划分为三个不相交的区域,即正域(Pos),负域(NEG)和边界(BND):从上面可见:用图说明正域、负域和边界,每一个小长方形表示一个等价类。
8、 正域、负域和边界NEG(X)Pos(X)=BND(X)X正域 负域 边界5、粗糙集若,即,即边界为空,称X为A的可定义集;否则X为A不可定义的,即,称X为A的Rough集(粗糙集)。6、规则