欢迎来到天天文库
浏览记录
ID:40595555
大小:275.10 KB
页数:36页
时间:2019-08-04
《概念描述:特征化和比较》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第七章概念描述:特征化和比较数据挖掘可以分成两类描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。概念描述对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要给出这种数据一个描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。概念描述:特征化:对所选择的数据给出一个简单明了的描述比较:提供对于两个或以上数据进行比较的结果数据概化和基于汇总的特征化数据概化数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据
2、集从较低的概念层抽象到较高的概念层的过程。主要方法:数据立方体(OLAP使用的方法)面向属性的归纳方法12345概念层数据概化:数据立方体方法(不使用面向属性的归纳)执行计算并将结果存储在数据立方体中优点:数据概化的一种有效实现可以计算各种不同的度量值比如:count(),sum(),average(),max()概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等缺点只能处理非数据类型的维和简单聚集数值类型的度量值缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次概念描述VS.OLAP概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关
3、,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。两者的主要区别:概念描述可以处理复杂数据类型的属性及其聚集一个更加自动化的过程OLAP实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数据),表现为一种简单的数据分析模型一个由用户控制的过程面向属性的归纳Attribute-orientedinduction,AOI(KDD`89Workshop)受数据类型和度量类型的约束比较少面向属性归纳的基本思想:使用关系数据库查询收集任务相关的数据通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者
4、是属性概化通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作通过与用户交互,将广义关系以图表或规则等形式,提交给用户面向属性的归纳步骤:数据聚焦:选择和当前分析相关的数据,包括维。属性移除:如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符(比如求和等),则运用该操作符进行概化。属性概化阈值控制:可以设一个缺省的或可以指定的阈值,在不同的属性值个数少于该值后则停止进一步概化。例子:比如地区维度分为省、市、区、街道阈值为40,则大约在地区维度要概化到
5、省一级2、例,在下面的初始工作表上做面向属性归纳姓名性别专业籍贯出身日期信用情况电话学历张明男计算机南京79。01良4316111本李枚女生物苏州76。02优4315111研李山男高分子化学盐城80。02中4315808本.................…...王民男通信工程镇江80。04一般4315807本对于每个属性,概化讨论如下:1)姓名、电话:该属性的值有许多,并且无概化操作,属性删除2)性别:属性可取的值2个,属性保留不概化3)专业:假定我们事先已定义了一个概念分层,可以将专业概化到{艺术、化学、机械、通信、信息、…..},所以可被概化4)籍贯:此表以城市为单位
6、,已无法概化,值不算太多,保留5)出生日期:假定存在概念分层,首先概化到年龄,再到年龄段6)信用:假定有{优、良、中、一般、差}的分层,可以概化7)学历:可以按{博士生、硕士生、本科生}概化概化过程将产生相等的元组,相等的元组归为一类并给出计数性别专业籍贯年龄段信用情况计数男信息南京19-22良10女信息南京19-22优9男化学盐城19-22中4................男通信镇江22-25一般1学历本研本..本此处,计数看成度量,其它看成维概化结果的表示表格地区产品类别销售额(千万)count(千)江苏电视15300浙江电视12250广东电视18450江苏电脑120
7、1000浙江电脑1501200广东电脑2001800概化结果的表示二维交叉表地区电视电脑产品类累计江苏浙江广东地区合计count金额count销量count销量30015130013510001202501214501601200150450282250228180020010005550005254000470概化结果的表示可视化方法电视销售饼图概化结果的表示量化特征规则概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,用满
此文档下载收益归作者所有