数据挖掘研究综述_石杰楠.pdf

数据挖掘研究综述_石杰楠.pdf

ID:48022744

大小:188.96 KB

页数:5页

时间:2020-01-21

数据挖掘研究综述_石杰楠.pdf_第1页
数据挖掘研究综述_石杰楠.pdf_第2页
数据挖掘研究综述_石杰楠.pdf_第3页
数据挖掘研究综述_石杰楠.pdf_第4页
数据挖掘研究综述_石杰楠.pdf_第5页
资源描述:

《数据挖掘研究综述_石杰楠.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、航天制造技术2005年8月第4期综述数据挖掘研究综述中国地质大学石杰楠摘要从数据挖掘的步骤、分类、主要技术方法以及应用领域与主要工具等不同视角阐述了数据挖掘技术,最后,对当前数据挖掘领域的研究热点以及研究发展方向进行了详细的概括与总结。关键词数据挖掘研究进展1引言数据挖掘涉及的学科领域和方法很多,有人工智能、数据统计、可视化、并行计算等。数据挖掘有以[5,6]近十几年来,人们利用信息技术生产和搜集数据下多种分类方法。的能力大幅度提高,无数个数据库被用于商业管理、2.1根据挖掘任务政府办公、科学研究和工程开发等,这一势头仍将持可分为分类模型发现、聚类、

2、关联规则发现、序续发展下去。于是,一个新的挑战被提了出来:在这列分析、偏差分析、数据可视化等。被称之为信息爆炸的时代,信息过量几乎成为人人需a.分类(Classification)要面对的问题。数据挖掘(DataMining)就是从大量的、旨在生成一个分类函数或分类模型,该模型能把不完全的、有噪声的、模糊的、随机的数据中,提取数据库中的数据项映射到给定类别中的某一个。既可隐含在其中的、人们事先不知道的、但又是潜在有用以用此模型分析已有的数据,也可以用它来预测未来[1]的信息和知识的过程。发现了的知识可以被用于信的数据。息管理、查询优化、决策支持、过程

3、控制等,还可以b.聚集(Clustering)用于数据自身的维护。因此,数据挖掘是一门广义的聚集是对记录分组,把相似的记录放在一个聚集交叉学科,它汇聚了不同领域的研究者,尤其是数据里。聚集和分类的区别是聚集不依赖于预先定义好的库、人工智能、数理统计、可视化、并行计算等方面类,不需要训练集。的学者和工程技术人员。c.数据可视化(DescriptionandVisualization)数据挖掘并不专用于特定领域,它需要凝结各种数据可视化严格地讲不是一个单独的数据挖掘技术和创造力去探索可能隐藏在数据中的知识。在很任务,它被用来支持其他挖掘任务。可视化是采用

4、图[2][7]多情况下,应用数据挖掘技术是为了实现三种目的:形、图表等易于理解的方式表达数据挖掘结果。发现知识;使数据可视化;纠正数据。d.关联规则(Affinitygroupingorassociation[3]数据挖掘一般有以下几个主要步骤:数据收集;rules)[4][8,9]数据整理;数据挖掘;数据挖掘结果的评估;分析关联规则是一种简单却很实用的关联分析规决策。总之,数据挖掘过程需要多次的循环反复,才则,它描述了一个事物中某些属性同时出现的规律和有可能达到预期的效果。模式。相关规则分析就是依据一定的可信度、支持度、期望可信度、作用度建立相关规

5、则。2数据挖掘分类e.序列分析(SequenceAnalysis)序列模式分析同样也是试图找出数据之间的联收稿日期:2005-06-30272005年8月第4期航天制造技术系。但它的侧重点在于分析数据之间前后(因果)关依据“Doasyourneighborsdo”的原则,K-nearest系,因此对数据往往要求引入时间属性。序列模式分邻居方法认为:邻居数据必然有相同的属性或行为。析非常适于寻找事物的发生趋势或重复性模式。K表示某个特定数据的K个邻居,可以通过K个邻f.偏差分析(DeviationAnalysis)居的平均数据来预测该特定数据的某个属性

6、或行为。是用来发现与正常情况不同的异常和变化,并进3.4遗传算法一步分析这种变化是否是有意的诈骗行为,还是正常它首先将问题可能的解按某种形式进行编码,编的变化。如果是异常行为,则提示预防措施;如果是码后的解称为染色体;随机选取N个染色体作为初始正常的变化,那么就需要更新数据库记录。种群,再根据预定的评价函数对每个染色体计算适应2.2根据挖掘对象值,性能较好的染色体有较高的适应值;选择适应值可分为关系数据库、面向对象数据库、空间数据较高的染色体进行复制,并通过遗传算子,产生一群库、时态数据库、文本数据源、多媒体数据库、异质新的更适应环境的染色体,形成新

7、的种群,直至最后数据库以及环球网Web。收敛到一个最适应环境的个体,得到问题的最优化2.3根据挖掘方法解。[11]可粗略地分为:机器学习方法、统计方法、神3.5联机分析处理(OLAP)经网络方法、决策树、可视化、最近邻技术等。在机联机分析处理(OnLineAnalyticalProcessing,器学习法中,可细分为归纳学习方法(决策树、规则归OLAP)主要通过多维的方式来对数据进行分析、查询[14]纳等)、基于范例学习、遗传算法等;在统计方法中,和报表。OLAP应用主要是对用户当前及历史数据可细分为:回归分析(多元回归、自回归等)、判别分进行分析,

8、辅助领导决策。其典型的应用有对银行信析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类用卡风险的分析与预测、公

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。