【pdf】数据挖掘技术介绍

【pdf】数据挖掘技术介绍

ID:27477721

大小:694.00 KB

页数:19页

时间:2018-12-04

【pdf】数据挖掘技术介绍_第1页
【pdf】数据挖掘技术介绍_第2页
【pdf】数据挖掘技术介绍_第3页
【pdf】数据挖掘技术介绍_第4页
【pdf】数据挖掘技术介绍_第5页
资源描述:

《【pdf】数据挖掘技术介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘技术林源洪集美大学理学院(SchoolofSciences,JimeiUniversity)1第一章引言1什么激发了数据挖掘,为什么它是重要的需要是发明之母。数据挖掘之所以引起信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索。所以,数据挖掘是信息技术自然演化的结果,因而是重要的。2什么是数据挖掘简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。从广义上来说,数据挖掘

2、是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。基于这种观点,典型的数据挖掘系统具有以下主要成分:1)数据库、数据仓库或其他信息库2)数据库或数据仓库服务器3)知识库4)数据挖掘引擎(用于特征化、关联、分类、聚类分析以及演变与偏差分析)5)模式评估模块6)图形用户界面23在何种数据上进行数据挖掘原则上讲,数据挖掘可以在任何类型的信息存储上进行。它包括以下几个方面:1)关系数据库2)数据仓库3)事务数据库4)高级数据库系统5)展开文件和WWW4数据挖掘功能---可以挖掘什么类型的模式数据挖掘功能用于指定数据

3、挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,并加以预测。通常我们把它们分为以下几个类型:1)概念/类描述:特征化和区分(CharacterizationandDiscrimination)2)关联分析(AssociationAnalysis)3)分类和预测(ClassificationandPredict)4)聚类分析(ClusteringAnalysis)5)孤立点分析(OutlierAnalysis)6)演变分析(Evolu

4、tionAnalysis)5所有模式都是有趣的吗答案显然是否定的。实际上,对于给定的用户,在可能产生的模式中,只有一小部分是他感兴趣的。这就对数据挖掘系统提出了一系3列的问题。你可能会想:“什么样的模式是有趣的?数据挖掘系统能够产生所有有趣的模式吗?数据挖掘系统能够仅产生有趣的模式吗?”模式是有趣的,通常它含以下几点:(1)它易于被人理解;(2)在某种程度上,对于新的或测试数据是有效的;(3)是潜在有用的;(4)是新颖的。这样就存在一些模式兴趣度的客观度量。这些度量基于所发现模式的结构和关于它们的统计。第二个问题涉及数据挖掘算法

5、的完全性。期望数据挖掘系统产生所有可能的模式是不现实和低效的。实际上,应当根据用户提供的限制和兴趣度对搜索聚焦。第三个问题是数据挖掘的优化问题。对于数据挖掘系统,仅产生有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效的,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式。在这方面目前已经有了进展,然而,在数据挖掘中,这种优化仍然是个挑战。6数据挖掘系统的分类数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习不、可视化和信息科学。根据不同的标准,数据挖掘系统可以分类如下:1)根据挖掘的数据

6、库类型分类(不同标准如数据模型、涉及应用类型)2)根据挖掘的知识类型分类(不同功能如特征化、区分、关联等)3)根据所用的技术分类(如机器学习、统计学、可视化、模式识别)44)根据应用分类(如金融、电信、股票市场、DNA、e-mail等)7数据挖掘的主要问题1)挖掘方法和用户交互问题a.在数据库中挖掘不同类型的知识b.多个抽象层的交互知识挖掘c.结合背景知识d.数据挖掘查询语言和特定的数据挖掘e.数据挖掘结果的表示和显示f.处理噪声和不完全数据g.模式评估----兴趣度问题h.数据挖掘算法的有效性和可伸缩性I.并行、分布式和增量挖

7、掘算法2)关于数据库类型的多样性a.关系的和复杂的数据类型的处理b.由异种数据库和全球信息系统挖掘信息5第2章挖掘大型数据库中的关联规则关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。这就是说,数据是事务的或关系的,如何由大量的数据中发现关联规则?什么样的关联规则最有趣?我们如何帮助或指导挖掘过程发现有趣的关联规则?对于关联规则挖掘,什么样的语言结构对于定义关联挖掘查询是有用的?1关联规

8、则挖掘1)购物篮分析:一个引发关联规则挖掘的例子图162)基本概念设I={i1,i,L,in}是项的集合.设任务相关的数据D是数据库事务2的集合,其中每个事务T是项的集合,使得T⊆I。每个事务都有标识符,称作TID。设A是一个项集,事务T包含A当且仅当A⊆T。关

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。