信息熵-特征选择方案

信息熵-特征选择方案

ID:12472000

大小:492.50 KB

页数:13页

时间:2018-07-17

信息熵-特征选择方案_第1页
信息熵-特征选择方案_第2页
信息熵-特征选择方案_第3页
信息熵-特征选择方案_第4页
信息熵-特征选择方案_第5页
资源描述:

《信息熵-特征选择方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于互信息的特征选择1.模型定义D1病集S由有关心脏病病种(i=1,2,…,n)组成,令患者的疾病信息熵马笑潇,黄席樾,等.基于信息熵的诊断过程认知信息流分析[J].重庆大学学报:自然科学版,2002,25(5):25-28.-王园,吉国力,魏磊.信息熵在临床定量诊断分析中的研究及应用[J].厦门大学学报:自然科学版,2004,43(B08):353-356.为:(1)显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.定义D2:一个诊断病例库可以表示为关于病例特征的矩

2、阵形式(2)其中,—病例库中第个病例的第个属性值;m—病例特征数量;n—病例库规模;定义D3:一个信息系统(IS)可以表达为(3)其中,U是对象的非空有限集合,R是属性的非空有限集合,是属性值的集合,Vr表示了属性任意时的属性值范围,是一个信息函数,它指定U中每一个对象x的属性值.当R中的属性集可进一步分解为条件属性集合C和决策属性集合D,且满足时,信息系统(IS)称为决策系统(DS)张文宇.数据挖掘与粗糙集方法[M].西安电子科技大学出版社,2007:49..ai为某一条件属性,则决策属性D对某一条件属性ai的依赖程度可以利用下式计算屈利,苑津莎,李

3、丽.基于事例推理的电力系统短期负荷预测[J].电力科学与工程,2008,24(2):59-63.-程其云,孙才新,周湶,等.粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J].电网技术,2004,28(17):72-75.:(4)式中,RC、RD分别表示条件属性集合C和策属性集合D在论域上的等价关系.表示RD相对于RC的条件熵.的值越大,则条件属性ai对决策属性D的重要性越大.如果,则说明ai对于D不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该

4、属性归入最优属性子集,否则弃用属性.1.3基于互信息的特征选择LiYF,XieM,GohTN.Astudyofmutualinformationbasedfeatureselectionforcasebasedreasoninginsoftwarecostestimation[J].ExpertSystemswithApplications,2009,36(3,Part2):5921-5931.:三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法

5、及应用[J].计算机工程与应用,2008,44(13):130-133。结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。苗夺谦苗

6、夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684.等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版),2006,40(6):1041-1044.提出了一种基于互信息增益率的属性约简算法;颜艳等颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J].清华大学学报(自然科学版),2007,47(S2):1903-1906.提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式

7、算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。熵的公式:联合熵:条件熵:联合熵和条件熵的关系:1.3.1互信息(MI)互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立.特征和类之间的互信息:P(wi)是特征wi的概率,表示wi没有发生.P(ci)是类cj的概率,P(cj,wi)是类cj与特征wi的联合概率.是特征之间的互信息.互信息和信息熵之间的联系:互信息和信息熵的关系见图1.图1互信息和信息熵的关系图连续型时

8、,(p(x),p(y)和p(x,y)都是连续的)计算连续的基因表达变量的熵或互信息,首先要将其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。