特征数据挖掘:基于系统特征数据的系统化信息处理

特征数据挖掘:基于系统特征数据的系统化信息处理

ID:6438035

大小:753.00 KB

页数:5页

时间:2018-01-14

特征数据挖掘:基于系统特征数据的系统化信息处理_第1页
特征数据挖掘:基于系统特征数据的系统化信息处理_第2页
特征数据挖掘:基于系统特征数据的系统化信息处理_第3页
特征数据挖掘:基于系统特征数据的系统化信息处理_第4页
特征数据挖掘:基于系统特征数据的系统化信息处理_第5页
资源描述:

《特征数据挖掘:基于系统特征数据的系统化信息处理》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、特征数据挖掘:基于系统特征数据的系统化信息处理——一种以数据为基础,知识获取为核心的复杂系统研究方案谷云东(北京师范大学管理学院系统科学系)一、引言数据挖掘(DataMining),或更广泛地讲数据库中的知识发现(KnowledgeDiscoveryinDatabases—KDD),是目前智能科学与信息技术研究最活跃的分支之一[1-4]。1989年8月,在美国底特律召开的第11届国际人工智能联合会议上提出了“在数据库中的发现知识(KDD)”这一概念[1]。1995年,美国计算机学会(ACM)会议提出数据挖掘(DataMining)概念作为知识发现的关键步骤[2]。数据挖掘形象地把大型

2、数据库看成是蕴含丰富信息的矿藏。通过有效地应用知识发现技术,可以从数据矿藏中挖掘或开采出潜在有用的信息。数据挖掘概念一经提出便迅速引起公司企业的商务管理人员,人工智能、统计学、数据库系统等领域专家以及与各软件公司科研管理人员等信息产业界人士的普遍关注[2]。目前,数据挖掘已经形成较为系统的理论和方法体系,并在包括商业、金融、保险、医疗、化工、制造以及系统工程等领域在内的多个行业得到了成功的应用[2]。有专家认为,数据挖掘是继电子计算机技术和网络技术之后的又一个技术热点,必将会对人类社会产生深远影响[2]。本文在简要回顾数据挖掘的概念、过程和各阶段工作量基础上,介绍了特征数据挖掘的思想

3、框架,并从信息获取和复杂系统研究的角度进行分析,指出特征数据挖掘为复杂系统的研究提供了一种以数据为基础,信息和知识获取为核心,具有系统工程特点的复杂系统研究方案。数据挖掘概念、过程及各阶段工作量数据挖掘(DataMining),又称大型数据库或数据仓库中的知识发现(KDD),是一种自动或方便的模式提取过程。对于数据挖掘概念,有广义和狭义两种理解。广义地讲,数据挖掘等同于知识发现,可理解为是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程[2];狭义地讲,数据挖掘可以看作知识发现过程中从数据向知识转化的一个关键

4、步骤。由于数据挖掘是一门交叉性学科,因此出现了许多含义相近的术语[1][2],例如“信息发现(InformationDiscovery)”、“信息抽取(InformationExtraction)”、“信息收获(InformationHarvesting)”、“数据库中知识挖掘(KnowledgeMiningformDatabase)”、“智能或探索式数据分析(IntelligentorExploratoryDataAnalysis)”以及“数据融合(Dataintegrating)”等等。相对来讲,数据挖掘主要流行于统计、数据分析以及数据库和管理信息系统等领域,而人工智能和机器学习

5、等领域则更多地使用知识发现。按照广义的理解,如图1所示,数据挖掘过程包含数据挖掘任务分析描述、挖掘数据准备、数据模式或知识的发现以及所发现模式或知识的表示、评估与应用等四个主要阶段。图1数据挖掘过程的四个阶段文献[4]指出,大量的统计分析表明数据挖掘的四个阶段的工作量呈现如下的比例关系:确定业务对象数据准备模式发现模式评估与解释图2数据挖掘各阶段工作量比例上述数据挖掘各阶段的工作量一方面说明了数据对数据挖掘的重要性,数据挖掘对其使用的数据有比较严格的要求;同时,也从侧面反映了这样一个事实:关于如何准备供数据挖掘使用的数据库,目前还缺乏全面、深入系统的研究。至今没有合适的理论来指导挖掘

6、任务的描述和数据准备过程,也没有理想的实现技术和工具。为此,我们需要研究挖掘任务、挖掘相关数据集合以及挖掘相关领域知识的表示问题。二、特征数据挖掘:基于特征描述数据的系统化信息处理1980年前后,文[5-6]提出因素空间的思想,为人工智能中的知识表示问题提供了一个数学框架。随后,文[7-11]研究因素空间理论应在模糊信息处理中的应用,综合函数、变权分析等数学工具。接着,文[12-13]讨论因素空间作为数据挖掘的数学基础的问题,给出概念内涵、外延相互转化的数学方法。特别地,文[14]发展因素空间理论引入描述特征、特征描述格式以及特征空间等概念,为数据挖掘任务描述和数据处理提供了一个理论

7、框架。基于特征空间的数据挖掘,简称特征数据挖掘,将数据挖掘看作一个面向应用的,围绕挖掘任务主题展开的,以数据的收集和集成为基础,以知识发现、知识应用为中介,系列问题解决为目的,人机交互和综合集成为特点的一个完整的系统化信息处理过程。图3特征数据挖掘的信息过程示意图如图3所示,特征数据挖掘首先通过挖掘任务的分析描述,明确目标主题并界定相关研究对象,并为其选择合适的描述特征组;随后,根据问题的需要和实际观测能力,分析各描述特征之间的关联并分别为其选择合适的描述

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。