一种基于条件熵的粗糙集连续属性离散化方法

一种基于条件熵的粗糙集连续属性离散化方法

ID:34483888

大小:223.05 KB

页数:5页

时间:2019-03-06

一种基于条件熵的粗糙集连续属性离散化方法_第1页
一种基于条件熵的粗糙集连续属性离散化方法_第2页
一种基于条件熵的粗糙集连续属性离散化方法_第3页
一种基于条件熵的粗糙集连续属性离散化方法_第4页
一种基于条件熵的粗糙集连续属性离散化方法_第5页
资源描述:

《一种基于条件熵的粗糙集连续属性离散化方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第1O卷第l5期2010年5月科学技术与工程Vo1.10No.15May20101671.1815(2010)15—3730—05ScienceTechnologyandEngineering⑥2010Sci.TectrEngn&一种基于条件熵的粗糙集连续属性离散化方法陈静华,李小民(军械工程学院光学与电子工程系,石家庄050003;中国人民解放军66489部队,北京lOOO95)摘要连续属性离散化是粗糙集应用研究的重点内容之一。基于条件熵可以反应属性依赖度的性质,将决策属性对条件属性的条件熵作为离散化标准,提出了一种粗

2、糙集连续属性离散化方法,并通过实例证明了该方法的正确性。关键词粗糙集离散化属性依赖度条件熵中图法分类号TP18;文献标志码A粗糙集理论是由波兰学者Z.Pawlak于1982年属性值阈,/表示UxA—的一个映射,称为信息提出的一种处理不确定和不精确性问题的数学工函数。当d=D时,称决策表为单一决策表,一般具[1]。其主要思想是在保持原有知识分类能力的地,决策表能够被等价地转化为单一决策表,现针前提下,通过知识约简删除冗余信息,以提高分类对单一决策表进行研究。效率。自粗糙集理论提出以来,成功应用于数据挖定义2(不可分辨关系)

3、设S=(U,A,为掘、模式识别、智能控制等众多领域,已成为国际和一个决策表,PcA,定义不可分辨关系IND(P)=国内众多学者的研究热点之一。{(,,,)∈U×UIVaEP,8):,,,口)},Pawlak提出的粗糙集理论不能直接用于处理IND(P)是一个等价关系,将论域划分为k个等连续属性,这在很大程度上限制了其应用范围,因价类:U/IND(P)={,,⋯,}。此,连续属性离散化成为粗糙集理论应用研究的一1.2信息熵个重要方面,基于信息熵的概念提出一种基于条件设P和Q在论域上导出的划分分别为和熵的连续属性离散化方法,并

4、通过实例验证了该方】,,其中法的正确性。X=U/IND(P)={置,,⋯,以);1基本概念Y=U/IND(Q)={,y2,⋯,)。可得到信息熵和条件熵的定义。1.1粗糙集定义3_2(信息熵)给定知识P和它的概率分定义1(决策表)在粗糙集理论中,称四元组布,则称S=(U.A,,,)为一个决策表,其中,U为对象的非日(P)=一∑p(Xi)lgp(x)(1)空有限集合,称为论域,A=CuD为属性集合,C={口IⅡ∈C)为条件属性集合,a为C的一个为知识P的信息熵,其中p(X)=l置I/II。简单属性,D={dId∈D)为决策属

5、性集合,且定义4(条件熵)给定知识P和Q以及它C≠,D≠,CnD=,V=U(a∈A)为们各自的概率分布和条件概率分布,则称H(Qf尸)=一∑p(置)∑p(IX,)lg2p(l置)2010年3月9日收到‘1J1第一作者简介:陈静华(1981一),男,硕士研究生,研究方向:故障(2)诊断。E-mail:2000ehjh@163.CO111为知识Q相对于P的条件熵,其中P(I置)=I五n15期陈静华,等:一种基于条件熵的粗糙集连续属性离散化方法3731I/II。、,预先设置的划分点数为,则划分间如果是一个有限集合,则不确定的H

6、artley度隔为d=(一voi)/(+1)。于是得到a的分量定义为(P)=logIl,已知知识P时,知识割点集p的正则条件熵为cKa—f,Ko=0L{i+id,i=1,2⋯,},≥1,Ho(QlP)=一∑p()∑p(IX~)lgzp(YiIX~)/lgzm‘=lJ=J按着预先设置的候选点数先对决策表进行初次离(3)散化,求出决策属性对所有条件属性的条件熵,如Ho(QIP)反映了属性集Q关于P的信息依果与原始决策属性对条件属性的条件熵不相等,则赖度:减少断点数,直到与决策属性对条件属性的原始条(1)0

7、;件熵相等。理论上要求离散化后的决策属性对条(2)属性集Q依赖于属性集当且仅当风(Ql件属性的条件熵不变,但实际中,一般取一个很小P)=o;的误差因数口,只要离散化后的条件熵与决策表的(3)属性集Q独立于属性集P当且仅当原始条件熵之间误差小于』B即可。算法步骤如下。Ho(QIJP)=1。1)给定误差因数,K=;设S=(U,A,v,jo为一个决策表,A=CuD,2)令C=,对每个条件属性a∈C(i为则Ho(DIC)反映了决策属性对条件属性的信息依条件属性个数),按(2)式计算决策属性对每个条件赖度,因为(DlC)=H(Dl

8、C)/lgrn而对于一个属性的条件熵,取其中最小值作为决策表的原始条决策表来说lgm为确定值,所以决策属性对条件属件熵,即性的条件熵(DIC)同样反映了决策属性D对条日(DIC)=H(DIa)=min(H(Dla))件属性c的信息依赖度,日(Dlc)越小说明决策属并令C=Cu{a};性D对条件属性c的依赖度越大,决策

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。