一种基于互信息的规则约简方法

一种基于互信息的规则约简方法

ID:30620889

大小:18.32 KB

页数:7页

时间:2019-01-01

一种基于互信息的规则约简方法_第1页
一种基于互信息的规则约简方法_第2页
一种基于互信息的规则约简方法_第3页
一种基于互信息的规则约简方法_第4页
一种基于互信息的规则约简方法_第5页
资源描述:

《一种基于互信息的规则约简方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果一种基于互信息的规则约简方法摘要粗糙集理论的主要应用是属性约简和规则提取,但由于应用粗糙集理论提取出的规则未必都是最佳规则,因此,本文提出一种基于互信息的规则约简方法。对确定性规则进行优化,挖掘出最简规则集,最后通过实例分析验证了该方法可行性和有效性。关键词粗糙集;信息熵;互信息粗糙集理论[1]是由波兰学者Z.Pawlak于1982年提出的,是一种新的处理模糊和不确定性知识的数学工具。其核心思想是在保持分类能力不变的前提下,通过对知识的化简,导出问

2、题的决策或分类规则。信息论由Shannon于1948年提出,信息熵是信息论的核心内容,信息熵[2]是事件不肯定性程度的度量,它能够从确切的数值量度出发去描述知识。由于应用粗糙集理论的上、下近似概念提取出的规则未必都是最佳规则,即规则中的属性值未必都是必要的,所以,可以通过应用信息熵知识给出决策表中约简属性的重要性度量,必然能删除不必要的属性及属性值,合并相同规则,得到最简规则集。本文综合应用了粗糙集理论和信息熵理论的优点,首先,应用粗糙集方法,求出属性约简、提取出确定性规则和可能性规则,然后,从文献[3]定义的信息熵出发,对决策表中属性的重要性进行了有效地度量,即通过计算课题份量

3、和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果约简中的每个属性的互信息,有效地简化得到的规则知识。因此,本文有机结合了粗糙集与信息熵的优点,提出一种基于信息熵理论的规则约简方法。该方法可以挖掘出满足给定精确度的一组条件属性最少、规则数最少的最简决策规则集,使得挖掘出来的规则更简单、实用。定义1设K=(U,A,V,f)是一个信息系统,其中U是一个有限的非空集合,称为论域。A=C∪D是属性的非空

4、有限集合,C为条件属性,D为决策属性,C∩D=Φ,Va是属性a∈A的值域,f:U×A→V是一个信息函数,它为每个对象赋予一个信息值。通常一个信息系统对应一个信息表,其中行对应论域中的对象,列对应论域中的属性。表内容就是对象的属性值。定义2设U为一个有限的非空论域,R为U上的等价关系。等价关系R把集合U划分为多个互不相交的子集,每一个子集称为一个等价类,用[x]R表示,[x]R={y∈U│xRy},其中x∈U,x、y称为关于R的等价关系,论域U上的所有等价类的集合用U/R来表示。定义对于任意的XU,X的R下近似集和R上近似集定义为:R(X)=∪{Y∈U/R│YX},(X)=∪{Y∈

5、U/R│Y∩X≠}bnR(X)=(X)-R(X)称为边界;集合的不确定性是由于边界域的存在,集合的边界域越大,精确性越低,粗糙度越大。定义4令R为一族等价关系,r∈R,如果ind(R)=ind(R-{r}),则称r为R中不必要的;否则r为R中必要的[2]。P中所有必要关系组成的集合称为P的核,记为core(P)。核与约简有如下关系:core(P)=∩red(P),其中red(P)表示P的所有约简。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有

6、先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果定义5信息熵:知识X的信息熵定义为:定义6条件熵:知识属性集合Y(U

7、IND(Y)={Y1,Y2,…,Ym})相对于知识(属性集合)U/ind(X)={X1,X2,…,Xn}的条件熵:H(Y

8、X)定义为:定义7互信息:设T=是一个决策表系统,其中R=C∪D,C是条件属性集合,D={d}是决策属性集合,且AC,对于任意属性a∈CPA的重要性定义为:SGF(a,A,D)=H(D

9、A)-H(D

10、A∪{a})。若A=Φ,则:SGF(a,A,D)=SGF(a,D)=H(D)-H(D

11、{a}),称为属性a和决策D的互信息,记为I(a

12、,D)。在信息表中,由于应用粗糙集理论提取的规则未必都是最简规则,即规则中可能存在某个属性值是不必要的,因此规则约简。由于在决策表中可以通过添加某个属性所引起互信息的变化大小作为该属性重要性的度量,互信息SGF(a,A,D)值越大,说明在已知A的条件下,属性a对于决策D就越重要。因此,基于论域上的不可分辨关系和信息熵的知识可以对确定性规则约简。其方法如下:Step1:利用互信息公式计算约简中各属性的互信息,将结果值按降序排列。课题份量和难易程度要恰当,博士生能在二年内作出结果,硕

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。