知识发现与数据挖掘概述

知识发现与数据挖掘概述

ID:6697607

大小:49.00 KB

页数:5页

时间:2018-01-22

知识发现与数据挖掘概述_第1页
知识发现与数据挖掘概述_第2页
知识发现与数据挖掘概述_第3页
知识发现与数据挖掘概述_第4页
知识发现与数据挖掘概述_第5页
资源描述:

《知识发现与数据挖掘概述》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、知识发现与数据挖掘概述摘要:数据挖掘(DataMining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。关键字:知识发现数据挖掘神经网络决策树引言知识发现与数据挖掘是人工智能,机器学习与数据库技术相结合的产物。随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着互联网的出现和发展,以及各种局域网的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。由于计算机数据采集工

2、具以及关系数据库技术的发展,各行业存储了大量的数据,而关系数据库提供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,这样既淹没了包含的知识又造成了资源的浪费。传统的数据分析手段更是难以应付,导致越来越严重的数据灾难,使决策者出现或是穷于应付,或是置之不理的事实。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促使了数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabas

3、e),也有人称为数据挖掘(DataMining)技术的出现。从数据库中发现知识(KnowledgeDiscoveryinDatabase-KDD)一词是于1989年8月在美国底特律召开的第一届KDD国际学术会议上正式形成的。1995年在加拿大召开了第一届知识发现和数据挖掘(DataMining—DM,有人翻译为数据挖掘、数据发掘、数据采掘)国际学术会议。1、数据挖掘技术的概念1.1知识发现的概念KDD(知识发现)是一个综合的过程,它包括数据录入、迭代求解、用户交互以及许多定制要求和决策设计等,这一研究领域兴起于八十年代初,它是

4、一个众多学科诸如人工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融合所形成的一个新兴的且具有广阔前景的领域。在KDD-96国际会议上,Fayyad,Piatetsky-Shapiro和Smyth对KDD作了如下描述:指从数据库中识别并获取获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。在这个描述中,数据库是一系列数据事实的集合。模式即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式

5、、聚类模式和序列模式等。过程是在KDD中包含的多阶段的处理,如数据的预处理、模式搜索、知识表示及知识评价等。最终可理解性则要求发现的模式能被用户理解,目前它主要体现在简洁性上。非平凡是指它已经超越了一般封闭形式的数量计算,而将包括对结构、模式和参数的搜索。1.2数据挖掘的对象数据挖掘的对象主要是关系数据库。随着数据开采技术的发展,逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球互联网等。文字、音频、图象、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从千万计的多媒体数据中找出需要的

6、数据和信息是很困难的。目前,对多媒体数据的处理只能在存取,编辑,集成,快进快退等基本操作上,对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大。目前,基于内容的多媒体检索,通过实例的查询方式,检索相似图象,音频,视频信息的应用已经相当成熟。基于内容的音频、视频信息的聚类、分类、相似查询等数据挖掘技术,已成为研究的热点。1.3KDD过程的一般步骤KDD过程由多个阶段的处理相互连接起来,反复进行人机交互过程,一般有数据的预处理、模式搜索、知识表示及知识评价等。KDD过程一般如图2.1图2.1由上图知,知识发现的过程可粗略

7、的理解为三部曲:数据准备(Datapreparation)阶段、数据挖掘(Datamining)阶段以及模型的解释评估(interpreparationandevaluation)阶段。1.4数据发掘与知识发现的关系从知识发现的概念及步骤中,我们可以看出,其实知识发现的核心就是数据发掘,而数据发掘的目的就是有效地从海量数据中提取出需要的知识,实现从数据到信息再到知识转变为价值的过程。并非所有的知识发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的互联网页面,则是信息检索领域的任务

8、。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也具有增强信息检索系统的能力,这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级决策

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。