数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc

数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc

ID:51065369

大小:812.50 KB

页数:17页

时间:2020-03-09

数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc_第1页
数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc_第2页
数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc_第3页
数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc_第4页
数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc_第5页
资源描述:

《数据挖掘与知识发现(讲稿6粗糙集挖掘技术).doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第6章基于粗糙集(RoughSet)理论的数据挖掘技术粗糙集理论是由波兰华沙理工大学数学家Z.Pawlak于1982年提出的一种数据分析理论,该理论在分类意义下定义了模糊性和不确定性两个概念。是一种处理不完整数据、不精确知识的表达、学习、归纳等的一种新型数学工具。粗集理论的重要特点是:不需要任何附加信息或先验知识,直接从所需处理的数据本身所提供的信息出发找出问题的内在规律。目前,大多数数据挖掘工具软件(如:AQ系统、IDS系统等)都是基于集合论开发的,其中粗糙集(RS)理论使用最广,也最有发展前途。由

2、于RS是研究不精确和不确定知识的一种数据工具,如,知识的含糊性,主要包括:①术语的模糊性,如高矮;②数据的不确定性,如噪声;③知识自身的不确定性,如规则的前后件间的依赖关系不完全可靠等。所以,它同其它不确定问题理论,如,概率统计理论中的概率分布、模糊理论不能处理不完整数据且需提供隶属函数这种先验知识、D-S证据理论中的基本概率赋值等相比,更具实用性。粗集理论的主要思想:是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。目前,RS理论已成功地应用于机器学习、过程控制、模式识别、数据挖

3、掘、预测、故障诊断、决策分析和人工神经网络等领域,成为其它不确定理论的一种补充,有着不可替代的优越性。1.粗糙集理论的基本概念(1)知识和知识库设为论域,任何子集,称为中的一个概念或范畴。规定空集也是一个概念。中的一个概念族称为关于的抽象知识,简称知识。这里,主要对上能形成划分的那些知识感兴趣。一个划分F定义为:F,其中,(显然,一个划分就是一条知识)上的一族划分称为关于的一个知识库(knowledgebase)。设是上的一个等价关系,表示R的所有等价类构成的集合,即。表示包含元素的R等价类。【例如】

4、考虑一组儿童的集合,A={(张,9),(王,9),(李,9),(赵,9),(刘,7),(洪,7),(梁,7),(黄,5),(陈,5),(段,8)}。则具有“相同年龄”关系的等价类如下:={(张,9),(王,9),(李,9),(赵,9)}={(刘,7),(洪,7),(梁,7)}={(黄,5),(陈,5)}={(段,8)}即一个知识库就是一个关系系统,R是上的一族等价关系。若等价关系族,且,则也是一个等价关系(即P中所有等价关系的交集),称为P上的不可区分关系(indiscernibility),记为in

5、d(P),且有(1)则表示与等价关系族P相关的知识,称为K中关于的P基本知识(P基本集)。为简单起见,用代替。不可分辩关系概念是RS理论的基础,它揭示出论域知识的颗粒状结构。的等价类称为知识P的基本概念或基本范畴。特别的,如果,则称为K中关于的初等知识。的等价类为知识R的初等概念或初等范畴。当为一知识库,定义为K中所有等价关系的族,记作(说明K是由所有基本知识组成的集合)【例如】一玩具积木的知识表达系统论域,如果根据某一属性描述这些积木情况,就可按颜色、形状和体积分类。换言之,可以定义三个等价关系(即

6、属性):颜色、形状、体积。按分:---红;---蓝;---黄按分:---圆;---方;---三角型按分:---大;---小。由此得三个等价类:这三个等价类均是由知识库中的初等概念(初等范畴)构成的。它的基本范畴是初等范畴的交集构成的,如------红色三角形------蓝色方形------黄色三角形上面是的基本范畴。------红色大三角形这是的基本范畴。----红色或蓝色,为的范畴。注:(1)有些范畴在这个知识库是无法得到的,如---说明知识库中不存在蓝色圆形,为空范畴。---说明知识库中不存在红色

7、方形,为空范畴。(2)上例容易求出、、和=={}=={}=={}=={}(3)若一个知识系统,,给定一个等价关系簇,且有下列等价类:试求:,,,《自己思考》定义:设和为两个知识库,若,即,则称和(P和Q)是等价的,记作()。(说明和有同样的基本范畴)设和为两个知识库,当时,称知识P(知识库)比知识Q(知识库)更精细,或Q比P更粗糙。当P比Q更精细时,也称P为Q的特化,Q为P的推广。这就意味着,推广是将某些范畴组合在一起,而特化则是将范畴分割成更小的单元。(2)不精确范畴、近似与粗糙集令,为上的一个等价

8、关系。当能表达成某些基本范畴的并时,则称是可定义的;否则不可定义的。可定义集是论域的子集,它可在知识库中精确地定义。而的不可定义集不能在这个知识库中定义。的可定义集也称为精确集,而的不可定义集也称为的非精确集或的粗糙集。当存在等价关系且为精确集时,集合称为中的精确集;当对于任何,都是粗糙集,则称为中的粗糙集。定义:设给定知识库,对于每个子集和一个等价关系,定义两个子集:分别称为的下近似(lowerapproximation)和上近似(upperappro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。