欢迎来到天天文库
浏览记录
ID:46189269
大小:64.00 KB
页数:15页
时间:2019-11-21
《数据挖掘的应用现状与发展》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘与数据仓库学校:班级:学号:姓名:指导老师:日期:2013年6月16日数据挖掘与数据仓库学校:班级:学号:姓名:指导老师:日期:2013年6月16日数据挖掘的应用现状及发展目录目录2引言3基本概念3数据挖掘对象6一般过程6主要技术及方法7应用的领域8当前国际现状10当前国内现状11存在的问题12促进数据挖掘在中国发展的建议12发展趋势14小结15参考书籍15引言近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋
2、势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(DataMining)技术便应用而生了。数据挖掘是信息技术的进化,其研究的目的主要是发现知识、使数据可视化、纠正数据。中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文具体分析了国内外
3、数据挖掘的发展现状和趋势,发现了其存在的问题,并且对其的理论研究和实际应用提出了一些建议。基本概念1、数据挖掘数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和
4、人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。1、数据挖掘技术数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。2、数据挖掘功能数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类:(1)关联分析(AssociationAnalys
5、is)关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。(2)聚类输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。(3)自动预测趋势和行为数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大
6、量手工分析的问题如今可以迅速直接由数据本身得出结论。。(4)概念描述对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。(5)偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检
7、测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。数据挖掘对象数据挖掘的对象主要是数据库数据、数据仓库数据和事务数据。随着数据挖掘技术的发展,逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球网WEB等。文字、音频、图象、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。目前,对多媒体数据的
此文档下载收益归作者所有