数据挖掘考试复习大纲

数据挖掘考试复习大纲

ID:37791501

大小:295.75 KB

页数:73页

时间:2019-05-31

数据挖掘考试复习大纲_第1页
数据挖掘考试复习大纲_第2页
数据挖掘考试复习大纲_第3页
数据挖掘考试复习大纲_第4页
数据挖掘考试复习大纲_第5页
资源描述:

《数据挖掘考试复习大纲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘——期末复习第一章、数据挖掘概论数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库Knowledge任务相关数据选择数据挖掘模式评估知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理:(这个可能要占全过程60%的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示。选择数据挖掘的功能数据总结,分类模型数据挖掘,回归分析,关联规则挖掘,聚类分析等.选择挖掘算法数据挖掘:寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗

2、余模式等等运用发现的知识体系结构:典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据挖掘的主要功能概念/类描述:特性化和区分归纳,总结和对比数据的特性。关联分析发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。分类和预测通过构造模型(或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。孤立点分析通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行

3、孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘的主要问题挖掘方法在不同的数据类型中挖掘不同类型的知识,e.g.,生物数据,流式数据,Web数据性能:算法的有效性、可伸缩性和并行处理模式评估:兴趣度问题背景知识的合并处理噪声何不完全数据并行,分布式和增量挖掘算法新发现知识与已有知识的集成:知识融合用户交互数据挖掘查询语言和特定的数据挖掘数据挖掘结果的表示和显示多个抽象层的交互知识挖掘应用和社会因素特定域的数据挖掘&不可视的

4、数据挖掘数据安全,完整和保密的保护第二章、数据仓库和OLAP技术什么是数据仓库?p67数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W.H.Inmon(数据仓库构造方面的领头设计师)建立数据仓库(datawarehousing):构造和使用数据仓库的过程。数据仓库与异种数据库集成p68传统的异种数据库集成:在多个异种

5、数据库上建立包装程序(wrappers)和中介程序(mediators)查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器缺点:复杂的信息过虑和集成处理,竞争资源数据仓库:更新驱动将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析高性能OLTP系统和OLAP系统的比较p69特征OLTPOLAP任务特点操作处理信息处理面向事务分析用户办事员、DBA、数据库专业人员经理、主管、数据分析员功能日常操作长期信息分析、决策支持DB设计

6、基于E-R,面向应用星型/雪花,面向主体数据最新的、详细的历史的、汇总的视图详细的、二维关系型汇总的、多维的任务单位简短的事务复杂的查询访问数据量数十个数百万个用户数数千个数百个DB规模100M-数GB100GB-数TB优先性高性能、高可用性高灵活性、端点用户自治度量事务吞吐量查询吞吐量、响应时间从关系表和电子表格到数据立方体p70数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是

7、关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。度量的分类p76一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类:分布的(distributive)

8、:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如:count(),sum(),min(),max()等代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。