欢迎来到天天文库
浏览记录
ID:9629128
大小:655.50 KB
页数:6页
时间:2018-05-04
《数据挖掘文献综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、文献综述(2011届)数据挖掘综述学生姓名吴静怡学号0204070132院系元培学院经管系专业信息管理与信息系统指导教师尉伟峰填写日期2010.10.1860前言随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理
2、技术。1什么是数据挖掘数据挖掘(DataMining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它
3、旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(DataWarehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。1.1数据挖掘的任务数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字
4、段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类:(1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取关于该疾病的特征规则。(2)区分规则。发现或提取要学习的数据(目标数据)6的某些特征或属性,使之与对比数据能够区分开来。例如,通过对某种疾病与其它疾病的症状的比较,可以提取出该疾病相对于其它疾病的区分规则,利用这些规则就可以区分出这种疾病
5、。(3)分类。分类是用一个函数把各个数据项映射到某个预定义的类,或者说是开采出关于该类数据的描述或模型。数据分类方法有决策树分类方法、统计方法、神经网络方法、粗集方法等。例如,利用当前病历数据可以建立各种疾病的分类规则,对于新来的病人,根据其症状及分类规则就可以知道此人所患病的种类。关于分类问题已经存在大量的研究。此外,还有基于模式的关联性、聚类、变化和偏差分析等。1.2数据挖掘的特点数据挖掘技术具有以下特点:(1)处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。(2)查询一般是决策制定者(用户)提出
6、的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。(3)在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。(4)数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。(5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。2数据挖掘的过程2.1确定业务对象确
7、定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。2.2数据准备(1)数据的选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(2)数据的预处理。研究数据的质量,为进一步的分析作准备,并确定将要进行的挖掘操作的类型。6(3)数据的转换。将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关
8、键。2.3数据挖掘对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。2.4结果分析解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。2.5知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。3国内的发展现状及应用与国外相比,国内对DMKD的研究稍晚,199
此文档下载收益归作者所有