欢迎来到天天文库
浏览记录
ID:27528308
大小:138.50 KB
页数:6页
时间:2018-12-04
《数据挖掘技术综述_王桂芹》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、电脑应用技术二零零七总第六十九期数据挖掘技术综述王桂芹黄道华东理工大学信息科学与工程学院,上海市200237摘要:随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各 种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”(DateMining)技术 应运而生。本文主要介绍了数据挖掘的基本概念以及数据挖掘的方法;本文对数据挖掘的应用及其发展前景也进行了描述。关键词:数据挖掘方法应用前景TheSummaryOfTheDateMiningtechnologyAbstra
2、ct:WiththedevelopmentofcomputerandInternet,itiseasytogetrelatedinformation. Butitishardtoanalyzethemassandwidereferencedatewiththeancientlystatemethod.Soan intellectualizedtechnology,DateMining(DM),emergencyasthetimesrequire,which integratedapplyallkindsofstateandanalyze,datebaseandcapa
3、citylanguagetoanalyzemass date.Inthepaper,itmainlyintroducesthebasicconceptionsandmethodsofDateMining.It alsodescribestheappliancesandtheforegroundofDateMining.Keywords:DateMining;method;application;foreground1引言随着信息技术迅速发展,数据库的规模不断扩大,从而产生了大量的数据。激增的数 据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地
4、利用这些数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的 数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工 具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术 也正是伴随着数据仓库技术的发展而逐步完善起来的[1,2]。2数据挖掘技术2.1数据挖掘的定义数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信 息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当
5、前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识 发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据 库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(KnowledgeDiscoveryinDatabase)中的重要技术,它并不 是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内 在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有
6、深入研究发生的9电脑应用技术二零零七总第六十九期原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为 决策行为提供有利的支持。2.1数据挖掘的方法数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数据挖掘方法表 现出多种多样的形式。从统计分析类的角度来说,统计分析技术中使用的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列 分析、最近序列分析、最近邻算法和聚类分析等方法。利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据背后 的市场规律
7、和商业机会。知识发现类数据挖掘技术是一种与统计分析类数据挖掘技术完全 不同的挖掘技术,包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、规则发现和关联顺序等[6,7,8]。 2.2.1统计方法传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回 归分析、方差分析等技术、贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳 模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的
此文档下载收益归作者所有