欢迎来到天天文库
浏览记录
ID:5846047
大小:30.00 KB
页数:2页
时间:2017-12-26
《数据仓库和数据挖掘复习大纲-2014第一学期》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、《数据仓库和数据挖掘》复习大纲一、共三道大题:填空题(每空1分,共20分),简答题(8道小题,每题5分,共40分),计算、分析与证明题(四道题,共40分)二、复习范围:填空题与简答题:OLTP、OLAP、KDD、BI、ETL的缩写(英语)、数据仓库的特征、数据仓库模型、数据仓库的多层结构、数据仓库的视图、度量的分类,聚类分析常用的数据结构、两种学习模型、为什么需要数据预处理及其主要内容、挖掘的知识类型、常见的OLAP操作、关联规则的确定性度量与实用性度量、数据立方的两种表。数据挖掘在互联网、移动互联网的应用;知识发现过程的主要步骤;OLTP与OLAP的主
2、要区别;为什么需要构建单独隔离的数据仓库;数据预处理(缺失数据)方法;数据仓库的设计模式;三种度量函数的定义;分箱平滑;无监督离散化(如分箱)、有监督离散法(基于熵);评估分类器准确率的方法;基于规则的分类器;不同类型属性之间的相似性计算(realvalue、binary、nominal、orderedset);常见的聚类优化目标(最小化聚类间相似性、最大化聚类内相似性等)及k-center、k-cluster、k-means聚类算法及其时间复杂性;PageRank与HITS的基本思想及各自优缺点。计算、分析与证明题:数据立方体的方体格、关联规则的提升度
3、、用Apriori算法挖掘强关联规则、频繁模式树的构造、信息增益的计算及决策树算法时间复杂性、贝叶斯分类、k-means聚类、k-center聚类、凝聚层次聚类法(全链接与单链接,可能涉及Dijkstra单源最短路径算法、最小生成树算法)。
此文档下载收益归作者所有