数据挖掘复习总结

数据挖掘复习总结

ID:37370400

大小:1.87 MB

页数:15页

时间:2019-05-22

数据挖掘复习总结_第1页
数据挖掘复习总结_第2页
数据挖掘复习总结_第3页
数据挖掘复习总结_第4页
数据挖掘复习总结_第5页
资源描述:

《数据挖掘复习总结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、一、数据挖掘的概念:(商业及学术方面)定义:a.技术定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们实现不知道的、但又是潜在的有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括以下几层含义:1.数据源必须是真实的、大量的2.发现的是用户感兴趣的知识3.发现的知识是可接受的、可理解的、可运用的4.发现的知识并不要求发放之四海皆准,仅要求支持特定的业务问题。商业定义:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽

2、取、转换、分析和其他模型化处理,从中提取辅助商业决策的关建化数据。简而言之,数据挖掘其实就一类深层次的数据分析方法二、数据挖掘的模式模式:数据特征化:目标类数据的一般特征或特性的汇总。通常用户指定类的数据通过数据库查询收集。模式类型:a.概念/类描述:特征和区分数据可以与类或概念相关联。b.关联分析关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。c.分类与预测分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出

3、模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。d.聚类分析“何为聚类分析?”与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。e.局外者分析在一些应用中(如,欺骗检测),罕见的事件可能比正规出现的那些更有趣。局外者数据分析称作局外者挖掘。局外者可以使用统计试验检测。f.演变分析数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。三、OLAP技术,多维数据模型,数据立方体概念,构建星型数据库模型OLAP技术(联机分析处理):可以用不同的格式组织和提供数据,以满足不同用户的各种需求。特点:面向市场的,

4、用于知识工人的数据分析、管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息、通常采用星形或者雪花模型以及面向主题的数据库设计尝尝跨越数据库模式的多个版本,还可以处理来自不同组织的信息,由多个数据存储集成的信息、访问大部分是只读操作、多位数据模型:这种模型将数据看成数据立方体形式数据立方体:允许从多维对数据建模和观察,它由维和事实定义,维是关于一个组织想要保存记录的透视图或实体,事实是数值度量的。构建星形数据库模型:数据仓库包括:一个大的包含大批数据并且不含冗余的中心表(事实表);一组小的附属表,每维一个四、

5、度量分类与计算度量可以根据其所用的聚集函数分成三类:(1)分布的:一个聚集函数是分布的,如果它能以如下分布方式进行计算:设数据被划分为n个集合,函数在每一部分上的计算得到一个聚集值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。(2)代数的:一个聚集函数是代数的,如果它能够由一个具有M个参数的代数函数计算(其中M是一个有界整数),而每个参数都可以用一个分布聚集函数求得。(3)整体的:一个聚集函数是整体的,如果描述它的子聚集所需的存储没有一个常数界。即不存在一个具有,个参数的代

6、数函数进行这一计算(其中M是常数)。整体函数的常见例子包括median(),mode()和rank()。一个度量是整体的,如果它可以用整体聚集函数得到。如何计算度量,首先看看如何对度量分类。注意,数据立方体空间的多维点由维-值对定义。例如,。数据立方体度量是一个数值函数,该函数可以对数据立方体的每一个点求值,通过对给定点的个维-值对聚集数据,计算该点的度量值。五、K均值分配方法(1)把对象划分为K个非空的子集(2)随机的选择一些种子点作为目前划分

7、的簇的质心。质心是簇的中心(平均点)(3)把每一个对象赋给最近的种子点(4)重复第二步,直到没有新的分配六、OLAP操作有哪些(1)上卷:上卷操作(有些人称之为“上钻”操作)或者通过沿概念分层向上攀升,或者通过维归约,在数据方上进行聚集。(2)下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。转轴:转轴(又称旋转)是一种目视操作,它转动数据的视角,提供数据的替代表示。(3)切片和切块:切片操作在给定的数据方的一个维上进行选择,导致一个子方。(4)其它OLAP操作:有些O

8、LAP还提供其它操作。例如,drill_across执行涉及多个事实表的查询;drill_through操作使用关系SQL机制,钻到数据方的底层,到后端关系表。其它OLAP操作可能包括列出表中最高或最低的N项,以及计算移动平均值、增长率、利润、内部返回率、贬值、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。