欢迎来到天天文库
浏览记录
ID:23604331
大小:3.16 MB
页数:60页
时间:2018-11-09
《基于特征分类能力互补性和归一化互信息的特征选择方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据目录第三节基于特征分类能力互补性的特征排序方法⋯⋯⋯⋯⋯⋯⋯⋯⋯22第四节实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.4.1实验数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.243.4.2实验设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.253.4.3实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.26第五节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一30第四章基于混淆矩阵的自适应互信息估算方法⋯⋯⋯⋯⋯⋯.31第一节Fraser算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
2、⋯⋯⋯..31第二节自适应样本区间的互信息估算方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯35第三节实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯39第四节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41第五章基于特征分类能力结构互补性的特征子集选择⋯⋯⋯⋯42第一节提出动机⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42第二节基于特征分类能力结构互补性的特征子集选择方法⋯⋯⋯⋯⋯..43第三节实验结果与分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.3.1实验数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.495.3
3、.2实验设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~505.3.3实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.50第四节本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56第六章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..57第一节本文研究工作的总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.57第二节未来研究工作的展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.58参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯60致谓j⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯65个人简历⋯
4、⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.66V万方数据第一章引言第一章引言本章简要介绍特征选择方法的概念和研究现状,并阐述本文的研究目的和意义,以及本文的创新点和论文内容组织安排。第一节研究背景和现状随着2l世纪的到来,各行各业都迎来了巨变,数据俨然成为其必然产物。人们的购物清单、对影片的好恶、银行交易、疾病诊断结果等等都会转变成数据,一次选择或举动也许会成为数据库中的一条记录。伴随而来的数据量之大,增速之快,似乎没有尽头,人们对数据的理解远远不及其惊人的增长速度,令人不知所措。可以说,数据时代来临了。然而,数据的价值有高
5、有低,如何去其糟粕、取其精华,揭开数据背后潜在的有用信息,诚然是十分关键又艰巨的任务。数据挖掘(1】【2l(DataMining)便是-f-j从大量数据中提取出隐含的未知的有价值信息的科学,它是数据库知识发现(Knowledge.DiscoveryinDatabases,KDD)中的一个步骤,其目的是为数据建模以发现隐藏的知识。面对海量数据的挑战,数据挖掘、机器学习、统计学等其他相关领域受到越来越多学者的重视。其中,机器学习【3】作为一门多领域的交叉学科,是一门人工智能的科学。机器学习理论主要是设计和分析一些让计算机可以自动
6、“学习”的算、法[41,为数据挖掘提供分析技术。数十年来,数据收集和数据存储领域的巨大进展导致了信息的超负荷现象,且日益严峻。许多领域的科学家面临着日益剧增的观测(或模拟)数据的积累。传统的统计学方法为此进入瓶颈,归结原因是样本数目的增加,更重要的原因是描述每个样本的变量数目(即维度)的剧增。高维数据的诞生呈现出若干数学上的挑战,同时也推动着理论科学的进步。其中,高维数据带来的一个难题是,许多情形下,并不是所有的测量变量对于理解数据和泛化模型都是重要的【5】。尽管可以以牺牲计算效率为代价,为高维万方数据第一章引言数据构建高精
7、度的预测模型,但噪声变量对模型的负面影响和无法达到良好的可解释性也是难以回避的问题。此外,根据奥坎姆剃刀原理【6】,复杂的模型是难以理解的。在数据挖掘、机器学习等学科,降维(DimensionalityReduction)[刀是一项十分重要的技术。高维数据的出现和普及,使得降维技术成为了许多科学家研究的热点,它广泛应用于遗传基因分析‘81、文本挖掘p1、图像检索【10】、入侵检测111】等很多领域。降维技术【12]致力于解决学习算法在高维数据空间中的若干难题,例如维数灾难、分类过拟合、计算代价之高,以及由此造成的不良学习行为
8、等等。所幸,有研究[131表明高维数据具有其固有维度,固有维度远远小于数据的原始维度,并且在固有维度下数据也能得到较好的描述。降维问题可以用数学语言这样描述:给定维度为P的随机变量X:f玉⋯^17,依据某一准则,寻找一个低维表示S=(毛,...,氓7,能够描述或泛化原始数据,这里k≤P.不
此文档下载收益归作者所有