数据挖掘考试概念

数据挖掘考试概念

ID:12441235

大小:151.00 KB

页数:6页

时间:2018-07-17

数据挖掘考试概念_第1页
数据挖掘考试概念_第2页
数据挖掘考试概念_第3页
数据挖掘考试概念_第4页
数据挖掘考试概念_第5页
资源描述:

《数据挖掘考试概念》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1.当前数据挖掘研究的主要方向n数据挖掘研究的发展方向n新的应用领域新的工作形式新的数据类型数据挖掘的进一步深入2.数据挖掘的技术定义定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程.3.为什么要挖掘数据?商业观点n大量的数据被收集,贮入仓库n计算机已经变的越来越便宜,功能越来越强大n企业竞争压力大为什么挖掘数据?科学的观点n数据的收集和存储正以高速进行传统的技术方法对原始数据已不可实行4.知识发现过程、数据准备n、数据挖掘阶段n、结果解释和评价5.数据挖掘的

2、地位nKDD(knowledgediscoveryindata)是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.n数据挖掘的质量取决于两方面的影响:一、所采用的数据挖掘技术的有效性;二、用于挖掘的数据的质量数量(数据量的大小)6、.数据挖掘的对象关系数据库数据仓库事务数据库高级数据库系统7、数据仓储应该具有这些数据:整合性数据(integrateddata)、详细和汇总性的数据(detailedandsummarizeddata)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用DataMining的最大

3、目的8、DataMining常能挖掘出超越归纳范围的关系,但OLAP仅能利用人工查询及可视化的报表来确认某些关系,.主要差异在于DataMining用在产生假设,OLAP则用于查证假设9、数据挖掘主要有两大类主要任务:分类预测型任务和描述型任务10、数据挖掘的任务分类[预测性的]聚类[描述性的]关联规则发现[描述性的]序列模式发现[描述性的]预测回归[预测性的]异常发现[预测型的]11、聚类方法主要包括划分聚类、层次聚类、基于密度的聚类和kohonen聚类等;进行划分聚类,一般用距离来度量对象之间的相似性,典型的是欧氏距离;距离越大,则相似性越小,反之亦然

4、;12、.序列模式发现目的:找出规则来预测在不同时间点上很强的序列依赖性.异常检测n从正常的行为中检测有意义的异常n应用:信用卡欺诈检测网络侵扰检测数据挖掘采用了分类和归纳这些典型的统计方法,它仍然有自己显著的特点:一、模型的复杂性二、问题大型性.三、变量的离散性13..统计学是一门收集、组织数据并从这些数据集中得出结论的科学算术平均数.集中趋势的测度值之一最常用的测度值.一组数据的均衡点所在.易受极端值的影响用于数值型数据表示一组已按升序排列的容量为n的数据集,那么中位数可以表示如下:14、中位数1.集中趋势的测度值之一2.排序后处于中间位置上的值不受极

5、端值的影响n主要用于定序数据,也可用数值型数据n各变量值与中位数的离差绝对值之和最小15、定义:众数是指社会现象总体中最普遍出现的标志值。n出现次数最多的标志值就是众数16、定序数据是表示有相对重要性的类别的数值数据,可用于给强度、重要性分等级.例如,用1-5表示用户对某产品的质量评价,分别表示很差、较差、中等、较好、很好.¡贝叶斯定理提供了一种由概率、和来计算后验概率的方法,其基本关系是:v聚类:是一个数据集将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。v聚类分

6、析将一组(set)物理的或抽象的对象,根据它们之间的相似程度,分为若干组(group);v聚类是一种无监督的分类方法:不能事先定义类v典型的应用作为一个调度的工具获得数据分布作为其他算法的一个组成部分样本数据与小类、小类与小类之间的度量1、最短距离法T为一给定的阈值,如果对任意的,有(为的距离),则称G为一个类。v两个类之间的距离是从两个类中抽取的每对样本(一个取自第一个类,另一个取自第二个类)的距离中的最小值。最长距离法:两个类之间的距离是从两个类中抽取的每对样本(一个取自第一个类,另一个取自第二个类)的距离中的最大值什么是好的聚类方法?v一个好的聚类方

7、法可以产生高质量的聚类:类的内部具有较高的相似度类间具有较低的相似度v聚类结果的质量依赖于相似度评价方法以及它们的应用;v聚类结果的质量也取决于它发现隐藏模式的能力。.K-均值聚类vK-均值聚类方法是最简单、最常用的使用使用准则的方法。vK-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数,把n个对象分为k个类,以使类内具有较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。vK-均值聚类的处理流程如下。首先,随机选择k个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其

8、与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。