欢迎来到天天文库
浏览记录
ID:43706772
大小:286.46 KB
页数:39页
时间:2019-10-13
《CH6数据挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第6章数据挖掘技术26.1数据挖掘简介26.2关联分析46.2.1基本概念56.2.2经典频集算法66.2.3FPGrowth66.2.4多层关联规则76.2.5多维关联规则76.3分类与回归86.3.1基本概念86.3.2决策树96.3.3贝叶斯分类算法126.3.4人工神经网络136.3.5支持向量机156.3.6其他分类方法196.3.7回归216.4聚类分析236.4.1基本概念236.4.2划分方法246.4.3层次方法256.4.4基于密度的方法266.4.5基于网格的方法276.4.6基于模型的方法286.5离群点检
2、测296.5.1基本概念296.5.2基于统计的离群点检测296.5.3基于距离的离群点检测306.5.4基于偏差的离群点检测306.6复杂数据类型挖掘316.7数据挖掘的研允前沿和发展趋势336.7.1数据挖掘的应用336.7.2数据挖掘中的隐私问题346.73数据挖掘的发展趋势356.8练习366.9参考文献36第6章数据挖掘技术数据采集和数据存储技术的不断进步使得组织积累了海量的数据,而且数据量还任不断地快速增长。快速增长的海量数据存放在数据库、数据仓库屮,从屮提取有用的信息已经成为了巨大的挑战。早在1982年,趋势大师约翰
3、•奈斯比(JohnNaisbitt)在他的首部著作《大趋势》(Megatrends)中就提到:“人类正被信息淹没,却饥渴于知识。”由于数据量太大,并且数据本身具有新的特点,很难使用传统的数据分析工具和技术处理它们。数据挖掘将传统的统计分析方法与处理大量数据的复杂算法相结合,为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了契机。6.1数据挖掘简介数据挖掘(DataMining,DM)简单来说就是从人量数据小提取或挖掘出知识,通过仔细分析大量数据来揭示有意义的关系、趋势和模式。数据挖掘出现于20世纪80年代后期,是数据库研允
4、中一个很有应用价值的新领域,是一门交叉性学科,融合了统计学、数据库技术、机器学习、人工智能、模式识别和数据可视化等多个领域的理论和技术,如图6.1所示。图6.1数据挖掘受多学科影响数据挖掘是数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD)的核心步骤,发现隐藏的模式,因而从模式处理的角度,许多人对二者并没有严格的区分,但本书认为KDD是将未加工的数据转换成有用信息的整个过程,如图6.2所示。(1)数据清理:消除噪咅或不一致的数据。(2)数据集成:将多种数据源集成在一起。(3)数据转换和选择:提取与
5、分析任务相关的数据,将其变换成适合挖掘的形式。(4)数据挖掘:关键步骤,提取数据模式。(5)模式评估:根据某种兴趣度度暈,识别提供知识的真正有趣的模式。(6)知识表示:使用可视化或其他技术,向用户提供挖掘的知识。人利应用程序评估和表示数据挖掘知识模式数据仓库消理和集成H标数据转换和选择图6.2数据库中知识发现过程一般地,数据挖掘任务可以分为两大类。•描述任务:刻画数据的特性,概扌舌数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常等)。•预测任务:在当前数据上进行推断,根据其他属性的值,预测特定属性的值。本质上,描述性挖掘任务通常
6、是探查性的,并且常常需要后处理技术验证和解释结果。图6.3展示了本章介绍的四种主要数据挖掘任务,包括关联分析、分类与回归、聚类分析和离群点检测。TidRefundlaritaiTaiableDefault!B7、tandardprocessfordatamining,CRISP-DM)是当今数据挖掘业界通用流行的标准之_,它强调数据挖掘在商业屮的应用,解决商业屮存在的问题。CRISP-DM参考模型屮包括:商业理解、数据理解、数据准备、建立模型、模型评估和模型部署六个阶段,如图6.4所示。(1)商业理解:关注从商业角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划。(2)数据理解:从收集数据开始,然后熟悉数据、甄别数据质量问题、发现对数据的真知灼见或探索出令人感兴趣的数据子集并形成对隐藏信息的假设。(38、)数据准备:从原始数据到构建最终数据集的全部活动,主要是为建模工具准备数据的转换和清洗。(4)建立模型:选择和使用各种建模技术,并对其参数进行调优。(5)模型评估:对模型进行较为全面的评价,重审构建模型的那些步骤以确认其能达到商业目的,并确定使用数
7、tandardprocessfordatamining,CRISP-DM)是当今数据挖掘业界通用流行的标准之_,它强调数据挖掘在商业屮的应用,解决商业屮存在的问题。CRISP-DM参考模型屮包括:商业理解、数据理解、数据准备、建立模型、模型评估和模型部署六个阶段,如图6.4所示。(1)商业理解:关注从商业角度来理解项目目标和要求,接着把这些理解知识转换成数据挖掘问题的定义和实现目标的最初规划。(2)数据理解:从收集数据开始,然后熟悉数据、甄别数据质量问题、发现对数据的真知灼见或探索出令人感兴趣的数据子集并形成对隐藏信息的假设。(3
8、)数据准备:从原始数据到构建最终数据集的全部活动,主要是为建模工具准备数据的转换和清洗。(4)建立模型:选择和使用各种建模技术,并对其参数进行调优。(5)模型评估:对模型进行较为全面的评价,重审构建模型的那些步骤以确认其能达到商业目的,并确定使用数
此文档下载收益归作者所有