数据挖掘的概念

数据挖掘的概念

ID:20616572

大小:499.50 KB

页数:16页

时间:2018-10-14

数据挖掘的概念_第1页
数据挖掘的概念_第2页
数据挖掘的概念_第3页
数据挖掘的概念_第4页
数据挖掘的概念_第5页
资源描述:

《数据挖掘的概念》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、•15•第1章数据挖掘的概念第1章数据挖掘的概念本章目标●理解对大型的、复杂的和信息丰富的数据集进行分析的必要性。●明确数据挖掘过程的目标和首要任务。●描述数据挖掘技术的起源。●认识数据挖掘过程所具有的迭代特点,说明数据挖掘的基本步骤。●解释数据的质量对数据挖掘过程的影响。●建立数据仓库和数据挖掘之间的联系。1.1概述现代科学和工程建立在用“首要原则模型(first-principlemodels)”来描述物理、生物和社会系统的基础上。这种方法从基础的科学模型入手,如牛顿运动定律或麦克斯韦的电磁公式,然后基于模型来建立机械工程或电子工程方面的各种应用。在这种方法中,用实

2、验数据来验证基本的“首要原则模型”,以及对一些难以直接测量或者根本不可能直接测量的参数进行评估。但是在许多领域,基本的“首要原则模型”往往是未知的,或者研究的系统太复杂而难以进行数学定型,随着计算机的广泛应用,像这样的复杂系统生成了大量的数据。在没有“首要原则模型”时候,可以利用这些易得的可用数据,通过对系统变量之间可以利用的关系(即未知的输入输出相关性)进行评估来导出模型。这样,传统的建模及基于“首要原则模型”进行分析的方法与开发模型及直接对数据进行相应分析的方法之间普遍存在着范型变换。我们都逐渐习惯面对这样的一个事实——超量的数据充斥着我们的电脑、网络和生活,政府机

3、构、科研机构和企业都投入大量的资源去收集和存储数据。实际上,这些数据中只有一小部分将会被用到,因为在很多情况下,要么数据量简直太大了,难于管理,要么就是数据结构太复杂,不能进行有效的分析。这种情况是怎么发生的呢?根本的原因是人们创建一个数据集时往往把精力都集中在如数据的存储效率的问题上,而没有去考虑数据最终是怎样使用和分析的。•15•第1章数据挖掘的概念对大型的、复杂的、信息丰富的数据集的理解实际上是所有的商业、科学、工程领域的共同需要,在商务领域,公司和顾客的数据逐渐被认为是一种战略资产。在当今的竞争世界中,吸取隐藏在这些数据后面的有用知识并利用这些知识的能力变得愈加

4、重要。运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。数据挖掘是一个反复迭代的过程,在这个过程中,所取得的进步用“发现”来定义,而这种发现是通过自动或手工方法取得的。在对什么将会构成一个“有趣的”结果没有预定概念的初步探测性分析方案中,数据挖掘非常重要。它从大量的数据中搜寻有价值的、非同寻常的新信息,是人和计算机合力的结果;它在人类描述问题和目标的知识与计算机的搜索能力之间寻求平衡,以求获得最好的效果。在实践中,数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集中的一些变量或域来预测其他我们所关心变量的未知或未来的值;另一

5、方面,描述关注的则是找出描述可由人类解释的数据模式。因此,可以把数据挖掘活动分成下述两类。1)预测性数据挖掘:生成已知数据集所描述的系统模型。2)描述性数据挖掘:在可用数据集的基础上生成新的、非同寻常的信息。在预测领域的后期,数据挖掘的目标是得出一种模型,以可执行码来表示。这种可执行码可以用于执行分类、预测、评估或者其他相似的任务。而描述性领域的后期,数据挖掘的目标是利用大型数据集中的未知模式和关系获得对所分析系统的理解。对特定的数据挖掘的应用,预测和描述的相对意义有相当大的变化。预测和描述的目标都是通过数据挖掘技术来实现的,本书将在后面介绍这些技术。数据挖掘的基本任务

6、如下:1.分类——预测学习功能的发现,此功能将一个数据项分到几个预定义类中的一类。2.回归——预测学习功能的发现,此功能将一个数据项映射到一个真实值预测变量。3.聚类——一种普遍的描述性任务,寻求以确定有限的一组类别或类来描述数据。4.总结概括——一项附加的描述任务,寻找对数据集或子集的简单描述方法。5.关联建模——发现描述变量之间或者数据集或其一部分的特征值之间的重要的相关性的本地模型。6.变化和偏差检测——发现数据集中最重要的变化。针对复杂的和大型的数据集的数据挖掘任务,第4章给出了更加正式的带有图形化解释和说明性示例的方法。这里给出了当前介绍性的分类和定义,只是让

7、读者对可使用数据挖掘技术来解决的问题和任务的广阔领域有一个初步感受。•15•第1章数据挖掘的概念数据挖掘成功地达到预定目标,很大程度上依赖于设计者投入的精力、知识和创造力。从本质上讲,数据挖掘就像是解题:从问题的个别方面来看,结构并不复杂。但把它作为一个整体时,它们就能组成一个详尽的系统。当你试着去拆分这个系统时,你可能会遭遇失败,开始把各部分组合在一起又往往会为整个过程而苦恼。但是,一旦你知道怎么从部分着手,你就会发现其实问题并没有开始那么困难。同样的道理可以类推到数据挖掘中,开始的时候,数据挖掘过程的设计者可能对数据源知道的不多。如果

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。