基于信息论的特征选择算法研究.pdf

基于信息论的特征选择算法研究.pdf

ID:51950406

大小:9.23 MB

页数:76页

时间:2020-03-20

基于信息论的特征选择算法研究.pdf_第1页
基于信息论的特征选择算法研究.pdf_第2页
基于信息论的特征选择算法研究.pdf_第3页
基于信息论的特征选择算法研究.pdf_第4页
基于信息论的特征选择算法研究.pdf_第5页
资源描述:

《基于信息论的特征选择算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于信息论的特征选择算法研究指导小组成员名单指导小组成员名单牛军钰副教授沙朝峰讲师李宏宇副教授基于信息论的特征选择算法研究目录目录?6ABSTRACT81ItrW111.1研究背景及意义111.2国内外研究现状121.3研究内容和主要工作161.4本文的章节安排172信息论与特征选择192.1信息论的基本概念192.1.lfjq息滴192.1.2条件熵202.1.3联合熵212.1.4互信息量212.1.5条件互信息量222.2特征选择232.2.1特征选择的定义232.2.2特征选择步骤252.2.3特征选择的分类272.3基于信息论的特征选择算法333>基于信息论的特征选择

2、算法研究目录2.3.1FCBF342.3.2mRR352.3.3ACA353一种基于互信息量的度量标准(NVI)373.1相关工作373.2典型的信息度量方法393.2.1SU393.2.2Dcmi403.3信息度量NVI413.4实验研究443.4.1实验方法453.4.2实验数据集453.4.3实验环境473.4.4实验结果与分析484一种改进的基十新度量标准的特征选择算法(IFCA)574.1信息度量标准574.2—种改进的基于新度量标准的特征选择算法(IFCA)584.3算法时间复杂度分析604.4算法性能检验614.4.1实验方法614.4.2实验数据集614基于信息

3、论的特征选择算法研究目录4.4.3实验环境624.4.4实验结果与分析625总结和展望675.1论文的研究成果675.2未来工作68##捕70攻读研究生期间完成的工作75賴765基于信息论的特征选择算法研究摘要摘要随着数据挖掘和机器学习应用领域的数据朝着大规模,高维度方向发展,这给传统的数据挖掘带来了巨大的挑战。例如在生物信息学中的基因表达阵列分析,所处理的数据集具有高特征、低样本的特点,其中存在的冗余特征或者不相关特征,不仅会降低学习算法的学习速度,影响到算法的准确率、知识发现以及知识的理解,而且会造成“维灾难”的问题。因此,特征选择在目前海量数据的条件下尤为显得重要。特征选

4、择是根据某种评估标准,从原始特征空间中去除不相关以及冗余的特征,达到降低特征空间维数的目的,在很多领域得到了广泛应用。基于信息论的特征选择算法是近年来的一个研究热点,出现了大量基于信息熵的选择算法。本文对特征选择及信息论相关知识进行总结研究,分析目前信息度量的发展趋势以及典型的信息度量方法,目的是提出一个普遍适用的基于信息论的特征选择度量标准NVI(Normalizedvariationofinformation),并详细证明该标准满足度量距离的条件——对称性、非负性和三角不等式。基于新的度量标准提出了一种改进的特征选择算法IFCA,该算法采用k-means聚类算法的基本思想,

5、并将相关度高的特征组成为一个聚类,再从每个聚类中选择区分能力较强的特征,同时达到去除冗余和不相关特征的目的。通过在公用测试数据集上与其它典型的度量表示对比实验表明,本文提出的度量标准NVI能够获取较小的特征子集,运行效率较高,并且将取得的特征子集用于不同的学习算法,都获得较好的的分类性能,同时该信息度量不但可以描述特征的类相关度,还可以描述特征间的依赖关系,可作为算法的距离度量标准,不局限于本文提出的特征选择算法。在公用测试数据集的实验也表明本文所提的算法工FCA在不同分类器上具有较低的训练和泛化错误,能够应用于处理高维数据集。6基于信息论的特征选择算法研究摘要虽然在公共测试数

6、据集上的模拟实验表明了所提出的IFCA特征选择算法的有效性,但它也存在几个方面缺陷,今后主要的工作将对存在的这些问题加以改进,以进一步提高所提出的选择算法的性能和效率。关键词:数据挖掘、特征选择、信息论、互信息量、学习算法、聚类分类号:TP3917基于信息论的特征选择算法研究ABSTRACTABSTRACTWiththedevelopmentofdatabasesindataminingandmachinelearningapplicationfieldstowardslarge-scale,highdimensiondirection,itmaybringgreatchall

7、engestotraditionalclassificationalgorithms.Suchasgeneexpressiondataanalysis,thedatabaseanalyzedbioinformationusuallycontainsahugenumberoffeaturesandasmallnumberofgeneexpressionsamples.Redundantfeaturesorirrelevantfeaturesinthisdatabasenotonlyreduce

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。