欢迎来到天天文库
浏览记录
ID:18270743
大小:287.50 KB
页数:15页
时间:2018-09-16
《数据挖掘与知识发现(讲稿3---面向属性的归纳学习技术)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊第3章面向属性的归纳学习技术归纳学习旨在从大量的经验数据中归纳抽取出一般的规则和模式。归纳学习是一种非常重要的数据挖掘方法,但由于数据库中的数据量往往很大,影响了归纳效果,需要采取有效措施进行数据约简。面向属性的数据泛化和归纳学习技术是解决这一问题的有效途径。面向属性的归纳学习(Attribute-OrientedInduction,AOI,亦称概念提升)是一种面向关系数据库查询的、基于属性概化的、联机的数据分析处理技术(OLAP)的知识发现方法。最早于1989年被提出,JiaweiHan等人对此作了比较全面的介绍
2、。其主要思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的数量,进行属性概化。生成的结果广义关系可以映射到不同形式,如图表或规则,提供给用户。即通过归纳学习,使得属性域取值的抽象程度提高,从而得到较精练的数据集合,大大提高了规则的学习效率。这种方法可以有多种不同的应用,其中之一是它能够被运用到一个数据分类过程,以简化分类所要处理的事件空间。3.1概念层次概念是语义描述的基本单位,也是数据库中各个描述对象的基本特征。概念可以分层,数据集中的数据通常包含原始层上的详细信息。将一个数据集合归纳成高概念层信息的数据挖掘技术,称为概念分层。数据的属性以及概念
3、依据抽象程度不同可构成一个层次结构。如,时间单位:年、季、月、周、日等。概念层次结构通常使用概念树表示。概念树是根据概念外延的包含关系定义的。概念树一般由领域专家提供,与数据库中特定的属性有关,它将各个层次的概念按从一般到特殊的顺序分层排列。15┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊在数据挖掘中,概念层次由于能够以层次的形式和偏序的关系组织数据和概念,能够把一组较低级概念映射到与它们相应的较高级概念的次序,以易于理解的高层概念表示数据库中数据的关系,因而在数据处理中往往起着举足轻重的作用。3.1.1概念层次的基本概念定义1(概念层次):一个概念层次H是
4、一个偏序集(h,),其中h是一个有限的概念集,是h上的一个偏序。在概念树中,树的结点表示概念,树枝表示偏序,并且父结点到子结点的关系称为偏序。最一般的概念是没有具体特性的概念,用any表示;最特殊的概念(叶结点)对应数据库中具体的属性值;而处于概念树层次结构中间的概念是对该属性值归纳过程中产生的更宏观的(更广义的)概念。如,在实际使用中,反映了概念之间的“特殊---一般”关系,可以用树、格或有向无循环图等来表示。如,梨子水果食品。定义2(正则概念层次)概念层次H=(h,)是正则的,如果h中有一个最大元素(最一般的概念),且有集合,,则并且,若中某个概念的最近祖先在中,则中其他概念的最近祖先也
5、都在中。此外,描述概念的普遍化程度的另一个重术语是层次号。概念层次自上而下的层次号依次为。层次号为的概念称为层上的概念。具有相同层次号的概念必定在集合中,困此,可简单地把称作层次。3.1.2概念层次的类型概念层次有四种:模式层次、集合分组层次、导出操作层次和基于规则的层次。(1)模式层次模式层次是在模式级上通过定义反映数据库属性之间联系的偏序关系而形成的。如,属性门牌号码、街道、城市、省份和国家形成模式层次为15┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊门牌号码街道城市省份国家它表明,沿模式自左向右是泛化,自右向左是特化。因而,无须为每个数据记录指定泛化或
6、特化的路径。对数据挖掘任务而言,需要把模式层次泛化到数据库的有关数据上,从而得到该模式的具体值或实例层次。为此,需要同时存放模式层和实例层上的偏序。(2)集合分组层次这种概念层次是通过定义一组概念(或属性)值的子集之间的关系而形成的,反映了应用领域的语义联系特点。[例1]Status是某大学数据库中的一个关系,见下表:表1Student数据库则其集合分组层次如下:{一年级,二年级,三年级,四年级}大学生{理科硕士,文学硕士,博士}研究生{大学生,研究生}全部身份{生物,化学,计算机,…,物理}科学{文学,音乐,…,绘画}艺术{科学,艺术}全部专业{上海市,宝山,…,青浦}上海{南京,苏州,…
7、,无锡}江苏省{上海,江苏省,…}中国{莫斯科,圣彼得堡,…}俄罗斯{东京,大阪,…}日本{俄罗斯,日本…}外国{中国,外国}所有地方15┊┊┊┊┊┊┊┊┊┊┊┊┊装┊┊┊┊┊订┊┊┊┊┊线┊┊┊┊┊┊┊┊┊┊┊┊┊0.0~1.99差2.0~2.99一般3.0~3.49良好3.5~4.0优秀{差,一般,良好,优秀}全部GPA其中,属性Status的概念层次为图1属性Status的集合分组层次(3)导出操作层次
此文档下载收益归作者所有