基于最优互信息的特征选取论文

基于最优互信息的特征选取论文

ID:10651414

大小:50.00 KB

页数:3页

时间:2018-07-07

基于最优互信息的特征选取论文_第1页
基于最优互信息的特征选取论文_第2页
基于最优互信息的特征选取论文_第3页
资源描述:

《基于最优互信息的特征选取论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于最优互信息的特征选取论文摘要本文提出一种新的多层神经网络的特征提取的方法。基于所提出的每个特征的评价函数值,此方法能够给出所有特征的排序。该方法在人造数据集和真实数据集上进行了实验。实验结果表明OMI能够准确地高效地在各种数据集上鉴别出最优特征集。关键词特征选取;特征排序;神经网络;多层神经网络1引言随着信息科学技术的快速发展,在工业界和学术界有着更复杂和更大的多变量建模问题。研究人员发现当不相关和冗余的特征向量剔除之后,模式识别技术的性能将显著的提高。由此,特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一。

2、具体来讲,特征提取有助于在线计算,加强系统的可读性,以及提高系统的预测性能。一般来讲.freel-1)个特征集Fm-1。现在的任务是要选取mth特征从。这一过程可以通过最大化Θ()来实现。也即优化下式:(3)其中,。3OMI特征提取算法通过以上分析,我们将OMI特征提取算法,表述为如下过程:初始化:将F设为空集,X为包含所有特征的全集。(1)计算与类属性的互信息:对每一个特征,计算。(2)选取第一个特征:选择特征f,对应最大的互信息值;并且设置。(3)递归计算:选择特征f,对应最大的OMI评价函数,即:(4)如果,回到

3、第2步,否则F即为最终所有特征向量的排序。需要指出的是,通过计算特征向量与类属性的互信息值,来导出每个特征向量相关性的排序,在理论上是可以证明的。另外,OMI评价函数可以避免估算多变量的的密度函数来求互信息。例如:计算和,意味着需要先计算和。而这两项在高维数据集的实例中,无法有效地准确地估计。而OMI中,只需计算和,意味着只需先计算和即可。通常这两项可以用ParzenI方法,在特征向量选取和排序时并未用到任何分类器的训练算法,所以OMI属于过滤式的特征选取方法。但是在后文的实验部分可以看到OMI选取的特征向量比有代表性

4、的嵌入式特征选取方法还要好。当今有代表性的过滤式方法为FisherScore4。FisherScore方法通过式(4)来估计每个特征向量对不同类属性的区分能力,从而得出所有特征的排序。(4)其中和分别是特征向量在第一类的均值和方差,而和分别是特征向量在第二类的均值和方差。从式(4)可以看到每个特征向量的重要性只是由均值和方差的比值来衡量。所以在高维的数据集中,其特征选取的效果并不可靠。而有代表性的嵌入式方法有:Leave-one-out5,Maximumoutputinformation6。Leave-one-out是

5、在每删除一个特征向量时,计算一次validation数据集上的分类器错误率变化。若其错误率变化相对较大,这可推断此特征向量相对重要;反之相对不重要。由此,也可得出所有特征向量的排序。而最近新提出的MaximumOutputInformation方法与MLP神经网络分类器相结合,通过计算输出信息在神经网络输入层各个节点的权值的大小来选出一个最不重要的特征向量。将其剔除后再依次重复以上过程剔除每一个特征向量。最先剔除的为最不重要的特征向量,最后剔除的为最重要的特征向量。从而也可得出所有特征向量的排序。值得注意的是,这两种嵌

6、入式的特征选取的方法在递归计算各个特征向量的重要程度是都必须重新训练分类器,所以嵌入式的特征选取方法计算效率普遍很低。5实验结果5.1人造数据集本文选取两个被广泛采用的人造数据集Monk和I特征提取算法能够有效地可靠地对所有特征向量进行排序。关于两个数据集的介绍见表1。本文所有数据集的分类器采用3层MLP神经网络。其内部节点的数目由5-foldcrossvalidation的方法来确定。表1数据集介绍数据集名称MonkLP二层节点个数56Monk1数据集可以从UCI网站公共数据库得到(http://archive.ic

7、s.uci.edu/ml/)。已知6个特征向量与类属性的关系:当(f1=f2)或者(f5=1)时,样本属于第一类,反之属于第二类。由此可见这个数据集只需选择特征向量1,2,5即可。表2列出了所有特征向量的重要程度降序的排序。其Top1-Top6特征向量作为输入,相应的测试样本集的分类错误率在图1中给出。表2Monk数据集特征向量排序215346图1Monk测试集错误率我们按照LP二层节点个数1263第3部分所介绍FisherScore,Leave-one-out,MaximumOutputInformation与OMI

8、按各自的特征向量排序,而后Top1-TopN特征向量作为输入,其30次平均的测试集分类错误率在图3-图5中给出。同样为了避免神经网络初始值等不确定因素的影响,所有的方法在三个数据集上分别运行30次。图3Heart平均测试集错误率图4Ionosphere平均测试集错误率图5I的方法得出特征向量排序要好于其它三个方法。尽管从上图可知O

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。