数据挖掘课程复习提纲

数据挖掘课程复习提纲

ID:11779973

大小:603.50 KB

页数:128页

时间:2018-07-14

数据挖掘课程复习提纲_第1页
数据挖掘课程复习提纲_第2页
数据挖掘课程复习提纲_第3页
数据挖掘课程复习提纲_第4页
数据挖掘课程复习提纲_第5页
资源描述:

《数据挖掘课程复习提纲》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘课程复习提纲(12级计算机、软件、网络)有关考试题型:一、填空题(15分,每空1分)二、判断题(10分,每题1分)三、计算题(55分,4大题,1~3大题各15分,第4大题10分)——聚类、分类、关联分析、异常挖掘各一题四、问答题(20分,3题,分别是7分,6分,和7分题)基本要求:掌握数据预处理、分类、聚类、关联分析、异常挖掘的基本方法、clementine的基本使用方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。算法重点掌握k-means、一趟聚类、DBSCAN、ID3(C4.5)、Bayes、KNN、Apriori及基于距离、密度、聚类的异常检测

2、方法。第一章绪论1数据挖掘的定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。2数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。描述任务:寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模式挖掘。(1)关联(Association)分析关联分析,发现特征

3、之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。(2)分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。(3)聚类(Clustering)分析“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义。聚类与分类的区别Ø聚类问题是无指导的:没有预先定义的类。128Ø分类问题是有指导的:

4、预先定义有类。(4)演化(Evolving)分析演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。如:商品销售的周期(季节)性。(5)异常(Outlier)分析异常分析就是对异常数据的挖掘、分析。比如商业欺诈行为的自动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人的调查等。(6)序列模式(SequentialPattern)挖掘分析数据间的前后序列关系3数据挖掘的对象包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网4.知识发现的主要步骤:(1)数据清洗(dataclearing)。其作用是清除数据噪声和与挖掘主题明显无关的数据

5、。(2)数据集成(dataintegration)。其作用是将来自多数据源中的相关数据组合到一起。(3)数据转换(datatransformation)。其作用是将数据转换为易于进行数据挖掘的数据存储形式。(4)数据挖掘(datamining)。其作用是利用智能方法挖掘数据模式或规律知识。(5)模式评估(patternevaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。(6)知识表示(knowledgepresentation)。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。数据挖掘只是知识发现过程的一个步骤。5数据挖掘产

6、生背景及应用领域产生背景:“数据过剩”、“信息爆炸”与“知识贫乏”使得人们淹没在数据中,难以制定合适的决策!应用领域:在许多行业都有广泛应用,有大量数据的领域就有应用。(1)数据挖掘在商业领域中的应用市场分析和管理,公司分析和风险管理,欺诈行为检测和异常模式的发现,自动趋势预测,…(2)数据挖掘在计算机领域中的应用信息安全:入侵检测,垃圾邮件的过滤,互联网信息/使用挖掘,智能回答系统…(3)其它领域中的应用数据挖掘在工业制造方面的应用,生物信息或基因的数据挖掘,体育竞赛,天文学,军事情报分析(反恐),电视观众预测,多媒体、空间数据分析,…6数据挖掘使用的软件SPSSC

7、lementine、SASEnterpriseMiner、IBMIntelligentMiner、SQLServer2005,OracleDM等商用软件能够提供常规的挖掘过程和挖掘模式。Matlab,Excel(DatamininginExcel:XLMiner)等提供了数据挖掘模块。Weka,RapidMiner(YALE),ARMiner等为开源数据挖掘工具。7.数据挖掘领域10大挑战性问题:(1)数据挖掘理论的构建128(2)高维、数据流数据挖掘(高效、可扩展)(3)(时间)序列数据挖掘(4)从复杂数据中挖掘复杂知识(5)网络环境下的数据挖掘技

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。