数据挖掘期末复习提纲(整理版)

数据挖掘期末复习提纲(整理版)

ID:38701500

大小:35.50 KB

页数:3页

时间:2019-06-17

数据挖掘期末复习提纲(整理版)_第1页
数据挖掘期末复习提纲(整理版)_第2页
数据挖掘期末复习提纲(整理版)_第3页
资源描述:

《数据挖掘期末复习提纲(整理版)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.熟悉数据挖掘的流程:提示:1)业务理解2)数据理解3)数据准备4)建立模型5)模型评估6)模型发布2.数据库系统与数据仓库系统的区别:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。具体表述如下:项目数据库系统数据仓库系统数据类型操作型数据分析型数据数据组织方式面向

2、应用面型主题试图机制虚表存储,只存视图结构实试图存储系统开发方法需求驱动数据驱动面向应用面向OLTP面向OLAP工具数据查询、开发分析和一般查询功能复杂简单优化事务处理和访问系统决策和分析索引有限数量完整结构自由空间需要附加数量空间无更新开销大无更新操作增、删、改频繁少3.数据聚合需考虑的问题;4.利用免费商品做促销的关联规则挖掘问题:1)找到免费商品的频繁1—项集,记为S1。2)使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。这是一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能节省一些不必要的计算开销。如果我们有一个频

3、繁项价格至少¥200,则没必要对这个频繁项的任何超集进行测试。这是因为任何其他商品加到这个频繁项里,价格肯定会增多。需要检验的是超集是否是频繁的。这里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于$200的频繁项集。这样导致了将不能够发现满足约束条件的频繁项集。FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在一个树结构中。3)从S1S2中找到频繁项集。4)生成满足最小置信度且形如的规则。5.分布式数据的关联规则挖掘方法:第一.在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集的并集;第二.计算CF中每个频

4、繁项集在各个站点的支持度计数;第一.计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集为频繁项集;第二.从全局频繁项集里导出强规则。6.急切分类、惰性分类的优缺点:急切分类比惰性分类在速度上要更快。因为它在接受新的待测数据之前已经构造了一个概括的模型。能够给一些属性指定一些权重,因为能提高精度。急切分类的缺点是它必须针对整个样本空间作出一个单一的假设,这可能削弱分类性能,并且需要更多的时间去训练。惰性分类使用更广泛的函数空间,这能够提高分类精度。相对于急切分类,它需要更少的时间用于训

5、练。缺点是惰性分类必须把所有的训练样本都保存下来,这可能引入了昂贵的存储代价并且要求有效的索引技术。另外一个缺点是在分类时更慢,因为分类器在待测样本来之前并没有构造出来。而且,所有属性都是具有一样的权值,这可能导致降低分类性能。7.熟悉贝叶斯分类方法的计算;8.聚类分析及聚类分析的常用算法;9.数据预处理中的规范化方法;10.关联规则挖掘的常用算法及计算11.挖掘海量数据的挑战:第一个挑战是数据挖掘的性能问题,也就是说数据挖掘算法的有效性和可伸缩性。在一定精度的要求下,在可接受的运行时间内,为了有效的从大量数据里提取信息,数据挖掘算法必须是有效的和可

6、伸缩的。第二个挑战是数据挖掘算法的并行性,分布式和增量处理过程。由于数据可能有很多数据库组成,这些数据库分布在不同的区域,而且有些数据挖掘算法本身比较复杂,这些都需要数据挖掘算法具有并行性和分布式计算功能。由于针对大规模数据的数据挖掘代价昂贵,因此当新的数据加入时,数据挖掘算法需要能够只对更新的数据进行处理,而不需要对整个数据集重新挖掘一次。12.k均值与k中心点的优缺点比较:划分和层次的比较:K中心点算法比k均值算法在面临噪音数据和离群点数据时更具鲁棒性,因为中心点相对均值来说,更少受到群点或者其他极端值的影响。然而,k衷心点聚类的预处理过程比K均

7、值代价更高。K中心点和k均值都是基于划分的角力,基于划分的聚类的一个优缺点是,他们能够撤销之前的聚类过程,不像基于层次的聚类方法,一旦分类或者聚合执行了,就不能调整。这项缺点可能引起层次聚类的结果质量。基于划分的聚类方法在寻找椭圆形聚类模式时具有更好的效能,在针对中等以下规模的数据集进行聚类时,聚类效果较好。划分聚类的一个缺点是聚类之前需要知道类别的数目;而层次聚类能够自动决定类别的数目。然而,层次聚类在伸缩性方面有困难。因为每一次聚合或者分裂都要求对很多样本或者类别进行评估和检查。层次聚类方法能够与其他聚类方法相结合来提高聚类性能。13.简述决策树

8、分类的主要步骤14.简单地描述如何计算由如下类型的变量描述的对象间的相异度;1)数值(区间标度)变量2)不对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。