统计类数据挖掘和知识类数据挖掘

统计类数据挖掘和知识类数据挖掘

ID:10991578

大小:427.00 KB

页数:51页

时间:2018-07-09

统计类数据挖掘和知识类数据挖掘_第1页
统计类数据挖掘和知识类数据挖掘_第2页
统计类数据挖掘和知识类数据挖掘_第3页
统计类数据挖掘和知识类数据挖掘_第4页
统计类数据挖掘和知识类数据挖掘_第5页
资源描述:

《统计类数据挖掘和知识类数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章统计类数据挖掘和知识类数据挖掘6.1设计数据挖掘模型6.1.1数据挖掘方法论6.1.2构造和使用数据挖掘模型6.2统计类数据挖掘6.2.1统计分析类数据挖掘技术6.2.2统计分析工具6.2.3统计分析工具应用6.3知识类数据挖掘6.3.1知识发现系统的一般结构6.3.2知识发现技术及其运用6.3.3知识发现工具6.4MDX语言6.1设计数据挖掘模型数据挖掘的基本机制是数据挖掘模型,这是一个抽象的对象,该模型以一系列结构行集存储数据挖掘信息,并可使用各种工具轻松访问数据。构造和使用数据挖掘模型首先必必须创建数据挖掘模型,并可以使用数据挖掘

2、模型测览器以图形格式显示数据挖掘模型的内容。6.1.1数据挖掘方法论1.数据取样(Sample)2.数据特征探索、分析和预处理(Explore)3.问题明确化、数据调整和技术选择(Modify)4.模型的研发及知识的发现(Model)5.模型和知识的综合解释和评价(Assess)6.1.2构造和使用数据挖掘模型1.创建数据挖掘模型创建新的数据挖掘模型包括确定模型类型、构建事例集将要使用的模型并选择模型构造新数据挖掘模型所用的数据挖掘技术。根据要处理的事例集数据的类型,可以使用两种类型的数据挖掘模型:关系数据挖掘模型和OLAP数据模型。前者设计

3、为处理传统的关系数据库表,而后者则设计为处理以多维数据集形式保存的OLAP数据。2.编辑数据挖掘模型一般可以通过编辑器来编辑数据挖掘模型。数据挖掘模型的进程取决于挖掘模型的类型。(1)通过编辑器编辑关系数据挖掘模型可以使用关系挖掘模型编辑器编辑关系数据挖掘模型的结构,该编辑器也可用来处理数据挖掘模型和查看结果内容,允许更改数据挖掘模型的基本属性(如数据挖掘算法),显示数据挖掘模型列(包括键列、输入列和可预测列)。关系挖掘模型编辑器还可以显示构造事例集的表结构,显示事例和支持表。对于已培训的关系挖掘模型,可以使用数据挖掘模型浏览器,以图形形式显

4、示数据挖掘模型的内容。(2)通过编辑器编辑OLAP数据挖掘模型可以使用OLAP挖掘模型编辑器编辑OLAP数据挖掘模型的结构.而且可处理数据挖掘模型并显示结果内容,更改数据挖掘模型的基本属性(如数据挖掘算法)及组成数据挖掘模型事例集的维度、级别和度量值的属性。如果OLAP数据挖掘模型已经过培训,则该编辑器还可以使用数据挖掘模型浏览器以图形形式显示数据挖掘模型的内容。3.培训数据挖掘模型为提供预测性的结果,数据挖掘模型首先必须在称为“培训”的进程中采用已知数据。在该进程中,数据被插入到未经过培训的数据挖掘模型中。这个进程并不将培训数据保存到数据挖

5、掘模型中,而是通过数据挖掘模型分析培训数据,找出以后可使用的规则和模式,以确定预测列的图值并将统计信息作为数据挖掘模型内容保存。4.查看数据挖掘模型查看已培训数据挖掘模型的最简单方法是使用数据挖掘模型浏览器和相关性网络浏览器,这些图形化工具以易于理解的图形界面显示数据挖掘模型的复杂内容(如决策树),并图形化数据挖掘模型的内容。图形化是指以易十理解的可视化格式显示复杂数据的过程,但在数据挖掘中实现却非常困难。数据挖掘模型浏览器可以简化数据挖掘模型内容的图形化过程,而相关性网络浏览器则可以使决策树数据挖掘模型中复杂关系的图形化变得易于理解。5.对

6、数据挖掘模型的其他操作也可以为数据挖掘模型分配安全角色,以将对该模型及其预测能力的访问权限限制为特定用户和组、当数据挖掘模型链接到相应的数据库时,将使用数据库角色决定是否允许访问链接到数据库中的数据挖掘模型,这与在多维数据集中使用数据库角色类似。6.2统计类数据挖掘统计技术是一个有着百余年历史,并有着广泛应用的技术。目前所使用的一些经典数据挖掘技术(如CART和CHAID等)都来自统计技术。在数据挖掘中的概率、独立性、偶然性和过适应性等概念也都来源于统计技术。6.2.1统计分析类数据挖掘技术统计类数据挖掘技术是数据挖掘技术中较为成熟的一种,主

7、要包括数据的聚集与度量技术、各种回归技术、聚类挖掘技术和最近邻域挖掘技术等。1.数据的聚集与度量2.各种回归技术回归又包括线性回归和非线性回归。3.聚类挖掘技术(1)聚类分析原理(2)分层聚类(3)划分聚类(4)密度聚类(5)网格聚类(6)模型聚类4.最近邻域数据挖掘最近邻域数据挖掘工具是数据挖掘技术中最容易理解的技术之一,因为它用与人们思维方式相似的方法进行分析——检测最接近的匹配样本。用最近邻域方法进行预测的基本概念是相互之间“接近”的对象具有相似的预测值。如果知道其中一个对象的预测值后,可以预测其最近的邻域对象。6.2.2统计分析工具数

8、据挖掘中的统计分析上具是一种处于知识发现工具和信息处理工具之间的数据挖掘工具。1.统计类数据挖掘工具的功能(1)可视化功能(2)探索功能(3)统计功能(4)数据管理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。