数据挖掘方法简介

数据挖掘方法简介

ID:43983038

大小:55.00 KB

页数:24页

时间:2019-10-17

数据挖掘方法简介_第1页
数据挖掘方法简介_第2页
数据挖掘方法简介_第3页
数据挖掘方法简介_第4页
数据挖掘方法简介_第5页
资源描述:

《数据挖掘方法简介》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘方法简介报告人:陈雅嘉导师:赵政时间:2004年2月20日9/9/20211数据挖掘方法简介了解数据挖掘数据挖掘的主要功能和步骤数据挖掘的方法和工具9/9/20212了解数据挖掘数据挖掘(DM:DataMining.)也称为数据库中的知识发现KDD(KnowledgeDiscoveryinDatabase),是近几年随着数据库和人工智能发展起来的一门新兴的数据库技术。它汇聚了数据库、人工智能、机器学习、统计学、可视化技术、并行计算等不同学科和领域的知识;9/9/20213了解数据挖掘所谓数据挖掘具体地说是在数据库中,对数据进行一定的处理,

2、从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的、但又是潜在有用的信息和知识的过程。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息,提高信息利用率,原始数据是形成知识的源泉。9/9/20214数据挖掘的主要功能和步骤数据总结分类聚类估计与预测关联和序列发现9/9/20215数据总结也可称为描述(Description),目的是对数据进行浓缩,给出它的总体的综合描述,实现对原始数据的总体把握。常用的数据描述的方法是统计学的传统方法,如计算数据项的总和、均值、方差等基本描述统计量;或绘制直方图

3、、折线图等统计图形。9/9/20216分类Classification就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。计算结果通常简化为几个离散值,常用来对资料作筛选工作。9/9/20217聚类Clustering是指当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将异构母体区隔为较具同构性的群(Cluster),即将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。9/9/20218

4、估计与预测EstimationandPrediction估计是根据已有的资料,对某一参数或数值进行估计。来获取数据其他未知属性之值。预测是根据对象属性、过去的观察值和有关资料对该属性的未来值进行预测,估计预测使用的技巧主要是回归分析、时间数列分析及人工智能、神经网络方法。9/9/20219关联和序列发现CorrelationandSequenceDiscovery数据库中的数据一般都存在关联关系,即变量之间存在某种规律,关联就是要找出某一件事或某一资料中会同时出现的东西。由于我们并不知道数据库中数据的关联是否存在精确的关联函数,即使知道也是不确定

5、的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度9/9/202110数据挖掘的方法和工具分析方法(AnalyticMethod)决策树(DecisionTree)神经网络(NeuralNetwork)相关规则(CorrelationRule)数据可视化(DataVisualization)遗传算法(GeneticAlgorithms)近邻算法(K—nearest)连机分析处理(OnLineAnalysisProcessing)粗糙集(RoughSets)9/9/202111分析方法数据挖掘中大量采用统计分析方法,如描述统计、概

6、率论、回归分析、时间序列分析、多元分析等。回归分析是用于了解自变量和因变量之间的关系,并用这些关系来进行分析和预测。时间序列分析,即利用时间序列模型进行分析。多元分析是对多维随机变量进行分析的技术,其主要有主成分分析、因子分析、判别分析、聚类分析及典型相关分析等。9/9/202112决策树一种用树枝状展现数据受各变量的影响情况的分析预测模型,根据对目标变量产生效应的不同而制定分类规则,它是建立在信息论基础之上,对数据进行分类的一种方法。它首先通过一批已知的训练数据建立一棵决策树,然后采用建好的决策树对数据进行预测。决策树的建立过程是数据规则的生成

7、过程,因此这种方法实现了数据规则的可视化,其输出结果容易理解,精确度较好,效率较高,因而较常用。常用的方法有分类及回归树法、卡方自动交互探测法等。9/9/202113神经网络一种模仿人脑思考结构的数据分析模式,由输入变量或数值中自我学习并根据学习经验所得的知识不断调整参数,以期得到资料的模式。是建立在自学习的数学模型基础之上,它可以对大量复杂的数据进行分析,并能完成对人脑或计算机来说极为复杂的模式抽取及趋势分析。神经网络的处理过程主要是通过网络的学习功能找到一个恰当的连接加权值来得到最佳结果。比较典型的学习方法是回溯法。通过将输出结果同一些已知值

8、进行一系列比较,加权值不断调整,得到一个新的输出值,再经过不断的学习过程,最后该神经网络得到一个稳定的结果。9/9/202114相关规则

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。