数据挖掘考试复习资料.docx

数据挖掘考试复习资料.docx

ID:57825849

大小:207.99 KB

页数:10页

时间:2020-03-30

数据挖掘考试复习资料.docx_第1页
数据挖掘考试复习资料.docx_第2页
数据挖掘考试复习资料.docx_第3页
数据挖掘考试复习资料.docx_第4页
数据挖掘考试复习资料.docx_第5页
资源描述:

《数据挖掘考试复习资料.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘考试复习资料一、名词解释1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。5、文本挖掘:文本数据挖掘(TextMining)是指从文本数据中抽取有价值的信息和知识的计算机处

2、理技术6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。定义1:OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的

3、信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。)7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特征。特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。一、简答题1、数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。

4、数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和传统数据库系统相比,不同点表现在以下几方面。(2)联系:数据库是数据管理技术,是计算机科学的重要分支,其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域.数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,是20世纪末到21世纪初数据库市场的一个新的增长点.数据仓库的数据常常来自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据已经清理、变换、集成于装载,并定期刷新,数据仓库中的数

5、据是海量的,数据仓库所要研究和解决的问题就是从数据库中的获取信息.数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。2、数据挖掘的主要功能是什么?数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。(1)自动预测趋势和行为——数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。(2)关联分析——数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两个以上变量的取

6、值之间存在某种规律性,就称为关联。(3)聚类——聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。(4)概念描述——就是对目标类对象的内涵进行描述,并概括这类对象的有关特征。(5)偏差检测——数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。3、简述OLAP在多维数据模型中的几个基本操作?(1)切片:在多维数组的某一维上选定一维成员的动作成为切片。(2)切块:在多维数组的某一维上选定某一区间的维成员的动作。(3)旋转:旋转

7、既是改变一个报告或者页面的维方向(4)钻取。钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。4、数据挖掘的步骤包括哪些?①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用(1)数据准备:包括数据的选择、净化、推测、转换数据缩减。 数据准备包括:选择数据--在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理--进行数据再加工,包括检查数据的完整性及数据的一致性、去噪

8、声,填补丢失的域,删除无效数据等。(2)数据挖掘:采用的技术有——决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。数据挖掘根据KDD的日标,选取相应算法的参数,得到可能形成知识的模式模型。(3)评估、解释模式模型:上面得到的模式模型,需要评估以确定哪些是有效的模式。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。