数据仓库与数据挖掘技术概述2final

数据仓库与数据挖掘技术概述2final

ID:46233125

大小:693.00 KB

页数:45页

时间:2019-11-21

数据仓库与数据挖掘技术概述2final_第1页
数据仓库与数据挖掘技术概述2final_第2页
数据仓库与数据挖掘技术概述2final_第3页
数据仓库与数据挖掘技术概述2final_第4页
数据仓库与数据挖掘技术概述2final_第5页
资源描述:

《数据仓库与数据挖掘技术概述2final》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘技术概述 数据挖掘第一讲绪论什么是数据挖掘?数据挖掘的步骤数据挖掘的主要功能(任务)概念/类描述:特征化和区分关联分析分类和预测聚类分析孤立点分析演变分析在何种数据上进行数据挖掘(对象)数据挖掘技术的前景数据挖掘的案例:“啤酒”和“尿布”一则广为流传的案例:啤酒和尿布的故事美国加州某个超市连锁店发现:在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。结果:上述几种商品的销量几乎马上成倍增长。什么是数据挖掘?数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背

2、景。如下是一些DM文献中的定义:数据挖掘是一个从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。--Fayyad.数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。--Zekulin.数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。--Ferruzza数据挖掘是发现数据中有益模式的过程。--Jonn数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。--Parsaye什么是数据挖掘?从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。非平凡(的

3、过程):有一定的智能性、自动性(仅仅给出所有数据之和不能算做一个发现过程)。有效性:所发现的模式对新的数据仍保持一定的可信度。新颖性:所发现的模式应该是新的。潜在有用性:所发现的模式将来有实际的效用。最终可理解性:能被用户理解,如:简洁性有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。数据挖掘:多个学科的融合数据挖掘数据库系统统计学其他学科算法机器学习可视化数据挖掘相关领域知识发现领域充分体现了各种方法论的相互交叉、渗透和协作。相关的理论和技术可以分类如下:按挖掘任务分类:包括概念/类描述、特征化和区分关联分析、分类和预测、聚类分析、孤立点分析、演变分析等。按挖掘对象分类:包括关系

4、数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、数据仓库、Web数据库等。按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法等。数据挖掘的称谓数据挖掘涉及多学科领域,有多个术语名称(可能其内容的侧重点略有差异)。数据挖掘(datamining)数据库中的知识发现(KDD,knowledgediscoveryindatabases)知识抽取(knowledgeextraction)信息发现(informationdiscovery)智能数据分析(intelligentdataanalysis)探索式数据分析(exploratorydat

5、aanalysis)信息收获(informationharvesting)数据考古(dataarcheology)“数据挖掘”流行于统计界、数据库、数据分析、管理信息系统界数据挖掘的步骤观点:数据挖掘是数据库中的知识发现(KDD)的一个步骤。粗略理解三部曲:数据准备(datapreparation)、数据挖掘(datamining)结果的解释评估(interpretationandevaluation)数据挖掘的步骤数据准备数据选择:目标数据数据预处理:消除噪声、不一致、冗余等数据变换:连续数据离散化、数据转化数据归约:特征选择或抽取数据挖掘时,需要明确任务如数据总结、分类、聚类、关联规则

6、发现、序列模式发现等。考虑用户的知识需求(得到描述性的知识、预测型的知识)。根据具体的数据集合,选取有效的挖掘算法。数据挖掘的步骤结果的解释评估(interpretationandevaluation)对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式。模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示。评注影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量数据挖掘的过程是

7、一个不断反馈的过程可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图或直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解。KDD的一般步骤传统KDD的一般步骤(细化)数据清理:(这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)模式评估知识表示数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识挖掘的核心数据清理数据集成数据库数据仓库Knowle

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。