欢迎来到天天文库
浏览记录
ID:50383709
大小:930.50 KB
页数:21页
时间:2020-03-08
《数据挖掘与知识管理.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘与知识管理第一节数据挖掘技术一、数据挖掘1.数据挖掘的概念数据挖掘(DataMining,简称DM)是指在数据库或数据仓库中,利用各种分析技术和方法,将大量的历史数据进行分析、归纳和整合,提取有用信息,为组织的决策提供参考。2.决策中的数据挖掘在决策过程的智能阶段,数据挖掘起着重要的作用。在小型组织中,高层管理者对于发生了什么事情是十分清楚的,他们可以通过沟通发现问题并形成决策陈述。在大中型组织中,高层管理者不可能去关心每一件发生的事情,更不用说去了解每个细节的发展变化。在有完善的数据积累的组织中,每个细节总是以数据的形式很好地保存于数据库中,此时可根据决策者的要求
2、开发数据仓库。但数据仓库更适合于信息管理人员的习惯,直接通过数据仓库难以发现有价值的信息。二、数据挖掘的过程数据挖掘的一般流程如图10-2所示,具体见第五部分的案例中。三、数据挖掘的技术常见的数据挖掘技术有:1.聚类分析(ClusteringAnalysis)。聚类方法主要有统计聚类和模糊聚类,通过聚类可以进行分类、预测和发现异常信息。2.决策树(DecisionTree)。决策树方法被成功地应用于信用卡损失和不同的国际流通货币的时序预测等各种问题中。一般可用于探索问题、数据预处理和预测中。目前常用的有ID3、CHAID和CART等几种典型的算法。决策树算法的主要优点是直观
3、,其缺点在于随着数据复杂性的增加,分支数会增加,对数据仓库的搜索次数会增加,管理难度会加大。3.神经网络(NeuralNetwork)。神经网络虽然在易用性和易理解性方面受到了限制,但其正确率很高。它通过学习发现规律,然后进行预测。神经网络可用于聚类、异常发现、特征制取和预测。4.关联分析(AssociationAnalysis)。关联分析方法是由DovetailSolutions公司的MiguelCastro博士提供。它又称为MB――“货篮子分析”,可用于销售配售、商店陈列、产品目录、定价和促销等方面。5.粗糙集方法(RoughSet)。在20世纪70年代,波兰学者Z.P
4、awlak和一些波兰的逻辑学家们一起从事关于信息系统逻辑特性的研究。粗糙集理论是Pawlak于1982年提出的分析不完整、不确定性数据的新的数学理论。6.遗传算法(GeneticAlgorithms)。遗传算法是霍兰等人于20世纪40年代提出的。以生物进化的过程为基础,加以交叉、变异和选择运算,逐步得到问题的最优解。四、基于Web的数据挖掘网络数据挖掘形式多样,根据不同的网络数据挖掘对象,人们将网络数据挖掘分为网络内容挖掘(WebContentMining)、网络结构挖掘(WebStructureMining)以及网络使用挖掘(WebUsageMining)。五、案例犯罪程
5、度预测表10-2是关于违法犯罪涉嫌人员数据仓库中的信息,根据属性建立其决策树。表10-2违法犯罪涉嫌人员数据仓库中的信息编号有无固定职业家庭经济状况年龄特长(爆破、驾驶等)社会关系犯罪记录家庭和睦情况本人犯罪记录违法记录次数犯罪程度00001无差30~40无有差有4严重00002有中20~30无无差无0较轻00003有差<20无无中无1较轻00004无差30~40有无中有1严重00005无差>40有有差无2严重00006有差20~30有有中有6严重00007有差<20无无中有1较轻00008有差20~30有有差无3严重00009无中<20有无好有5严重00010无差20~3
6、0无有差无0严重00011有好<20无无差有1较轻00012无差30~40有无中有0严重00013无中30~40无无差有1较轻00014有差>40无有中无2严重00015无差>40无无差无0严重00016无差30~40无无好无4较轻00017无好20~30有无差有2较轻对上表中的属性值进行编号,得到表10-3。表10-3对数据仓库中的属性进行编号编号有无固定职业家庭经济状况年龄特长社会关系犯罪记录家庭和睦情况本人犯罪记录违法记录次数(0,1-3,>3)犯罪程度0000111312123200002222111111000032111121210000411321222200
7、005114221122000062122222320000721111222100008213221122000091212132320001011212111200011231111221000121132122120001312311122100014214122122000151141111120001611311313100017132211221表10-3中,犯罪程度较轻有7个记录(s1=7),严重有10个记录(s2=10),此时I=-(7/17×log27/17+10/17×log210/17)=0.
此文档下载收益归作者所有