数据挖掘考试整理

数据挖掘考试整理

ID:6696168

大小:1.17 MB

页数:2页

时间:2018-01-22

数据挖掘考试整理_第1页
数据挖掘考试整理_第2页
资源描述:

《数据挖掘考试整理》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、简答题1、数据挖掘:从大量的数据中提取或“挖掘“知识。从数据中挖掘知识、知识提炼、数据/模式分析、数据考古和数据捕捞。数据仓库:是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、书籍集成、数据装入和定期数据刷新过程来构造。2、OLAP:数据仓库系统在数据分析和决策方面为用户或知识工人提供服务。这种系统可以用不同的格式组织和提供数据,以满足不同用户的各种需求。这种系统称作联机分析处理系统。OLTP:联机操作数据库系统的主要任务是执行联机

2、事务和查询处理,这种系统称作联机事务处理系统。OLTP和OLAP之间的区别:①用户和系统的面向性:OLTP是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。②数据内容:OLTP系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。③数据库设计:通常,OLTP系统采用实体-联系(

3、ER)模型和面向应用的数据库设计。而OLAP系统通常采用星形或雪花模型和面向主题的数据库设计。④视图:OLTP系统主要关注企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP系统常常跨越数据库模式的多个版本。OLAP系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP数据也存放在多个存储介质上。⑤访问模式:OLTP系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对OLAP系统的访问大部分是只读操作(由于大

4、部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。OLTP和OLAP的其它区别包括数据库大小、操作的频繁程度、性能度量等3、多维数据OLAP的操作?上卷操作:通过一个维的概念分层向上攀升或者通过维规约,对数据立方体进行聚集下钻操作:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。可以通过沿维的概念分层向下或者引入附加的维来实现。切片和切块操作:切片操作对给定方体的一个维进行选择,导致一个子立方体。切块操作通过对两个或者多个维执行选择,定义子立方体。转轴:转轴是一种可视化操作

5、,它转动数据的视角,提供数据的替代表示。其他OLAP操作:钻过执行涉及多个事实表的查询;钻透操作使用关系SQL机制,钻透数据立方体的底层,到后端关系表。还可能包括列出表中的最高或最低的N项,以及计算移动平均值,增长率,利润,内部返回率,贬值,流通转换和统计功能。多维数据模型?星形模式:最常见的模式范例,其中数据仓库包括(1)一个大的包含大批数据并且不含冗余的中心表,(2)一组小的附属表,每维一个。雪花行模式:是星行模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中,结果模式图形成类

6、似于雪花的形状。事实星座型:复杂的应用可能需要多个事实表共享维表,这种模式可以看作星型模式的汇集,称作星系模式或者事实星座形模式。4、数据仓库的设计和构造步骤?(1)数据仓库设计:商务分析框架;首先,拥有数据仓库可以提供竞争优势。其次,数据仓库可以提高企业生产力;第三,数据仓库有利于顾客联系管理;最后,通过以一致和可靠的方式长期跟踪趋势、模式和异常,数据仓库可以带来费用的降低。关于数据仓库的设计,四种不同的视角必须考虑:自顶向下视图、数据源视图、数据仓库视图和商务查询视图。(2)数据仓库的设计过程可

7、以使用自顶向下方法、自底向上方法或者二者结合的混合方法建立。从软件工程的观点,数据仓库的设计和构造包含以下步骤:①规划②需求研究③问题分析④仓库设计⑤数据集成和测试⑥部署数据库一般的,数据仓库的设计过程包含如下步骤:①选取待建模的商务处理②选取商务处理的粒度③选取用于每个事实表记录的维④选取事实表中每条记录的度量。5、数据集成要考虑的问题?(1)模式集成和对象匹配:为了匹配现实世界的等价实体,必须合并多个数据源的元数据,这涉及实体识别问题。(2)数据冗余:一个属性可能是冗余的,属性和维命名的不一致也

8、可能导致结果数据集中的冗余。除了检测属性间的冗余外,还应当在元组级检测重复。(3)数据值冲突的检测与处理:对于现实世界的统一实体,来自不同数据源属性值可能不同,这可能是因为表示、比例或编码不同。概念分层3,4,5的规则?p773-4-5规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地,该规则根据最高有效位的取值范围,递归地、逐层地将给定的数据区域划分为3、4或5个等长的区间。该规则如下:①如果一个区间在最重要的数字上包含3、6、7或9个不同的值,则将该区间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。