数据挖掘复习大纲1

数据挖掘复习大纲1

ID:28062276

大小:273.42 KB

页数:17页

时间:2018-12-07

数据挖掘复习大纲1_第1页
数据挖掘复习大纲1_第2页
数据挖掘复习大纲1_第3页
数据挖掘复习大纲1_第4页
数据挖掘复习大纲1_第5页
资源描述:

《数据挖掘复习大纲1》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘复习大纲第一章:据挖掘概论1.什么是数据挖掘?请举例。数据挖掘:是从大量数据中提取或n挖掘"知识,也就是从存放在数据库,数据仓痄或其他信息库中的数据挖掘冇趣知识的过程.数裾挖掘是讨以从数据库中提取冇趣的知识规榭或高层信息发现的知识,可以川于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统汁学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,括数据库技水,统计学,机器学习,髙性能计算模式识别,神经M络,数椐可视化,信息检索,罔象与信号处理和空间数据分析.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大

2、量的数据被描述为"数据丰富,但信息贫乏”,所以数据挖掘出來了.同义词:从数据屮挖掘知识、知识提取、数据/模式分析、数据考古、数据捕捞、数据屮的知识发现(KDD)。2.简述知识发现(KDD)过程。P3-5(P4图1-4)当把数裾挖掘看作知识发现过程时,它涉及的步骤为:数据清理(消除噪声或不一致数据)数据集成(多种数据源讨以组合在一起)数裾选择(从数裾库屮检索与分析任务相关的数裾)数据变换(数据变换或统一成适合挖掘的形式,如通过r.总或聚集操作)数据挖掘(基本步骤,使用智能方法提収数据模式)模式评估(根据菜种兴趣度度量,识别表示知识的真正有趣的模

3、式)知识表示(使川可视化和知识表示技术,叫川户提供挖掘的知识)3.知识挖掘的步骤了解应用领域:(广解相关的知识和应用的H标)创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换(找到奋川的特征,维数缩减/变量缩减,不变量的表示。)选择数据挖掘的功能(数裾总结,分类模型数裾挖掘,回归分析,关联规则挖掘,聚类分析等.)选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示(可视化,转换,消除冗余模式等等)运用发现的知识4.体系结构:典型数据挖掘系统(P5图1-5)5.简述数据挖掘的功能。数据挖掘的任务:描

4、述和预测。描述性挖掘任务刻画(描述)数裾库中数裾的一般特性;预测性挖掘任务在当前数裾上进行推断。主要功能有:概念/类描述:特性化和区分(归纳,总结和对比数据的特性。)关联分析(发现数据之间的关联规则,这些规则展示属忡一值频繁的在给定的数裾中所一起出现的条件。)分类和预测(通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。)聚类分析(将类似的数据归类到一起,形成一个新的类别进行分析。)孤立点分析(通常孤立点被作为“噪音”或异常被2•弃,似在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。)趋势和演变分析(描述行

5、为随吋间变化的对象的发展规律或趋势)1.数据挖掘:多个学科的融合(P19图142)2.数据挖掘的主要问题:P23挖掘方法在不同的数裾类型巾挖掘不同类型的知识,e.g.,牛/物数裾,流忒数裾,Web数裾性能:算法的冇效性、可仲缩性和并行处理模式评估:兴趣度问题背景知识的合并处理噪声何不完全数据外行,分布式和增量挖掘算法新发现知识与已冇知识的集成:知识融合用户交互数据挖掘查洵语言和特定的数据挖掘数据挖掘结果的表示和兄示多个抽象层的交互知识挖掘应用和社会因素特定域的数据挖掘&不可视的数据挖掘数裾安全,完整和保密第二章:据仓库和OLAP技术1.什么是

6、数据仓库?数据仓厍的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合(4个特性),支持管理部门的决策过程.”一W.H.Inmon(数据仓庳构造方面的领头设计师)建立数据仓席(datawarehousing):(构和使用数据仓库的过程。)2.数据仓库与异种数据集成传统的异种数据库集成:在多个好种数据库上建立包装祝序(wrappers)和屮介税序(mediators);杏询

7、驱动方法——当从客户端传过来一个丧询时,首先使用元数据字典将査询转换成相应异种数裾库上的查询;然后,将这些查询映射和发送到局部査询处理器缺点:复杂的信息过虑和集成处理,竞争资源数裾仓库:更新驱动将來自多个异种源的信息预先集成,并存储在数据仓库屮,供直接査询和分析,商性能3.OITP系统和OLAP系统的比较P69表3-14.从关系表和电子表格到数据立方体P70数据仓库和数据仓厍技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和

8、事实定义。维是叉于一个组织想要圯录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仑库的研究文献中,一个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。