欢迎来到天天文库
浏览记录
ID:48837220
大小:357.01 KB
页数:55页
时间:2020-01-27
《第五章 数据挖掘概述.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第五章数据挖掘概述什么是数据挖掘?数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘应该更正确地命名为“从数据中挖掘知识”。数据挖掘必须包括三个因素:数据挖掘的本源:大量的数据数据挖掘的结果:知识、规则结果的隐含性:因而需要一个挖掘过程术语模式(pattern)用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。例如:在超市的商品销售数据库中,我们可以找到以下信息:男性顾客在购买
2、婴儿尿布时也往往同时购买啤酒在购买面包和黄油的顾客中,大部分的人同时也买了牛奶知识(discoveredknowledge)满足用户兴趣度和置信度的模式。术语置信度(confidence)知识在某一数据域上为真的量度。置信度涉及到许多因素,如数据的完整性、样本数据的大小、领域知识的支持程度等。没有足够的确定性,模式不能成为知识。例如:模式“在购买面包和黄油的顾客中,大部分的人同时也买了牛奶”的置信度为:同时购买‘面包、黄油、牛奶’的顾客人数占同时购买‘面包、黄油’的顾客人数的百分比。术语兴趣度(
3、interestingness)在一定数据域上为真的知识被用户关注的程度。有效性(effectiveness)知识的发现过程必须能够有效地在计算机上实现。什么是数据挖掘?从上面的讨论中可以看出来,数据挖掘的过程具有以下一些显著的特点:数据挖掘要处理大量的数据,它所处理的数据库(数据仓库)的规模十分庞大,达到GB、TB,甚至更大;由于用户不能形成精确的查询要求,因此要依靠数据挖掘技术为用户找寻他可能感兴趣的东西;在数据挖掘过程中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当
4、达到一定的“门槛”时,即认为具有此规则。由此,利用数据挖掘技术可能会发现大量的规则;数据挖掘所发现的规则是动态的,它只反映了当前状态的数据集合具有的规则,随着不断地向数据库(数据仓库)中加入新数据,需要不断地更新规则。什么是数据挖掘?数据挖掘技术在决策支持过程中所处的位置如下图:研究问题域选择目标数据集数据预处理数据挖掘模式评价与理解决策支持应用如果满足不了用户的需要数据仓库与数据挖掘在传统的决策支持系统中,数据挖掘技术是建立在数据库的基础上的(如下左图),数据挖掘只是其中的一个部分,在这之前需
5、要大量的数据查询和预处理。有了数据仓库技术之后,由于数据仓库中的数据都是经过抽取、整理和预处理后的综合数据,因而数据挖掘工作可以在数据仓库上直接运行。数据挖掘数据的预处理数据库数据源(含数据库)数据抽取数据仓库数据挖掘数据仓库与数据挖掘利用数据库系统进行数据挖掘的缺点是:动态数据(DynamicData)大多数数据库的基本特点是内容将经常变化。在一个在线系统中,必须采用预警机制来保证数据库中的这些变化不会导致错误的数据挖掘结果。噪声和不确定性(Noise&Uncertainty)错误的数据对于现
6、实世界中的数据库是在所难免的,这主要在于数据采集的各个环节。另一种不确定性存在于发现的模式可能只在一部分数据上有效。数据仓库与数据挖掘不完整数据(IncompleteData)由于不完整的数据域和数据域上值的缺少造成的不完整数据当然会影响发现的结果。数据库的最初设计并没有考虑知识发现的应用,模式的发现、评价、解释很可能需要数据库中不存在的信息。冗余信息(RedundantInformation)同一数据在数据库中的多处出现。这种冗余信息有时会误导知识的发现过程。根据冗余信息发现的知识缺乏足够的兴
7、趣度。稀疏数据(SparseData)数据库中的信息在实例空间中可能是稀疏的,这会严重影响发现的效率。数据挖掘的功能数据挖掘通过预测未来趋势及行为,作出前瞻的、基于知识的决策。数据挖掘的目标是从数据中发现隐含的、有意义的知识。具体的功能有以下7个方面。1.概念描述2.关联分析3.分类与预测4.聚类分析5.趋势分析6.孤立点分析7.偏差分析1.概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。具体的描述分为特征性描述和区别性描述。(1)特征性描述:特征性描述用于描述某类对象的
8、共同特征。(2)区别性描述:区别性描述用于描述不同类对象之间的区别。描述数据允许数据在多个抽象层概化,便于用户考察数据的一般行为。例如对超市的销售数据,销售经理并不想了解每个客户的事务,而愿意观察到高层的数据,例如按地区对顾客分组,观察每组顾客购买频率和顾客的收入等。2.关联分析数据关联是数据中存在的一类重要的可被发现的知识,若两个或多个变量间存在着某种规律性,就称为关联。关联分析的目的就是找出数据中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。“啤酒
此文档下载收益归作者所有