资源描述:
《116数据挖掘期末考试题型整理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第一章1、文件系统与数据库系统的相同点:都是存储数据。文件系统把数据存储在计算机二级存储,及硬盘上(都是存储数据,数据库系统较强大)。数据库系统与文件系统的不同点:数据库DB系统最主要功能:(1)数据存储,把数据作为文件存储在本地硬盘上。(2)查询处理,DBSystem总是支持某种查询语言,比如关系数据库支持SQL查询语言,这个功能就不是文件系统具有的。(3)是事务处理,也包括并发访问的控制。在数据库中,一系列操作具有原始性,要么同时完成要么同时冋报。总之,使数据库中数据保持一致的状态,那么,事务处理能力以及查询处理是数据库系统
2、所有的而文件系统没有,也是二者最主要区别。2、数据仓库具有的两个作用:一是从各信息源提取决策需要的数据,加工处理后,存储到数据仓库中;二是提供用户的查询和决策分析数据。3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先天未知的可能有用的模式知识。4、公司进行数据挖掘的五种模式:购买几分模式、购买数据挖掘软件、购买固定模型系统、购买创建模型的开发工具、数据挖掘咨询。第二章1、数据挖掘是知识发现的核心。2、KDD(知识发现):KDD是从数据集屮识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。3、
3、数据挖掘技术分类:关联分析、序列模式、分类(预言)、聚集、异常检测。4、KDD步骤:数据准备、数据选择、数据预处理、数据变换、确定KDD目标、选择算法、数据挖掘(选择适当的算法来找到感兴趣的模式)、模式评估、知识表示。5、数据挖掘常用的模式:关联分析、时序模式、聚类分析、分类、偏差检测、预测。第五章1、数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度。2、数据预处理的基本功能:数据集成、数据清洗、数据变换、数据简化3、影响数据挖掘
4、效果的因素:不好的数据格式、令人费解的数据格式以及各系统中数据含义不一致、缺少相应可以实施的功能、挖掘出的结果缺乏充分的理由、企业内部组织的问题、耗时长。4、数据预处理方法:基于粗糙集的简约方法、基于概念树的数据浓缩方法、信息论思想和一般知识发现、基于统计分析的属性选収方法和遗传算法。5、数据预处理包括•:数据的收集和准备,数据清理,数据集成,数据变换和数据归约等。第六章1、当今流行的数据挖掘算法:分类和估值、预测分析与趋热分析、关联分析算法、聚类算法、统计分析、品种优化和进化算法。2、数据挖掘的核心是为数据建立模型的过程。3、
5、常用的数据分类方法:决策树归纳、贝叶斯分类、贝叶斯网络和神经网络。还有K■最邻近分类、基于案例的推理、遗传算法、粗糙集和模糊集方法。4、CART(决策树方法)算法从1984年开始得到普及推广,CART是一个较好的方法,它根据统计信息进行预测,同时规定从每个非终端结点发出恰好有两个分支。5、决策树的构造:(课木P130的例题或者PPT±classify关于天气的例题)(课堂作业)任意样本分类的期望信息:I(sl,s2,,sm)二一EPilog2(pi)(i二l,・・・,m)S是s个数据样本的集合。类别属性具有m个不同值Ciosi是
6、类Ci中的样本数。pi是任意样本属于Ci的概率,并用si/s估计。由非类别属性A划分为子集的爛:E(A)=E(slj++smj)/s*I(slj,,smj)非类别属性A具有v个不同值{al,a2,…,av}。利用A将S划分为v个子集{SI,S2,•••,Sv};其中Sj包含S中在A上具有值aj的样本。Sij是子集Sj中类Ci的样本数。信息增益公式:Gain(A)=I(sl,s2,,sm)一E(A)6、属性选择度暈标褥吋午纽帥屉借总増益L赠哉比無H联尼指数。7、树的剪枝:目的:消除决策树的过适应问磁(X)实质:消除训练集中的异常和
7、噪声;两种方法:先剪枝法(提前停止树的构造)和后剪枝法(树完全生长后剪枝);7、贝叶斯分类:(课本P137或者PPT上关于天气的计算)(课堂作业)贝叶斯定理提供了后验概率的计算方法:其屮P(X):X的先验概率;P(H):H的先验概率;P(X
8、H):条件H下X的后验概率;P(H
9、X):条件X下H的后验概率。8、聚类:就是将数据对象分组成为多个类或簇,在同一个簇中的对象之问具有较高的相似度,而不同簇中的对象差别较大。9、聚类分析的应用:市场或客户分割、模式识别、生物学研究、空间数据分析、Web文档分类及其他方面的应用。10、聚类核分
10、类的相同点和不同点分析:(P166)一:按照定义区分;二:聚类是观察不依赖预先定义好的类,它要划分未知的,是无指导学习;聚类是观察式学习,不是示例学习;聚类又称分段,是一种对具有共同趋势和模式的数据元组进行分组的方法。11>数据挖掘对聚类算法的要求:可伸缩性、处