基于加权投票的集成在线顺序极限学习机及其应用

基于加权投票的集成在线顺序极限学习机及其应用

ID:20865155

大小:7.17 MB

页数:62页

时间:2018-10-17

基于加权投票的集成在线顺序极限学习机及其应用_第1页
基于加权投票的集成在线顺序极限学习机及其应用_第2页
基于加权投票的集成在线顺序极限学习机及其应用_第3页
基于加权投票的集成在线顺序极限学习机及其应用_第4页
基于加权投票的集成在线顺序极限学习机及其应用_第5页
资源描述:

《基于加权投票的集成在线顺序极限学习机及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江苏大学硕士学位论文第一章绪论1.1研究背景与意义在信息爆炸的时代,每天都有大量的信息覆盖到社会的各个角落,人们缺少的不再是怎样获取有效的信息,而是高效地、合理地分析和挖掘信息的方法和途径。机器学习的不断发展也从一个方面反映了人们日常生活和工业设计的需要。一般来说,机器学习是对研究的数据进行分析处理,进而来改善系统的性能。当对这些数据进行分析处理后,便可以得出相应的信息,称之为“经验”或“先验信息”。当数据很大很丰富时,机器学习便进行自动或半自动的知识获取IlJ,这样的学习方式对经典的知识获取方法起到了很大的辅助作用。现在,机器学习被广泛

2、应用于各个领域,如科学研究、人脸识别IM】、语音识别【4l、蛋白质结构预测【5棚、数据挖掘、基因数据分类【-引、医疗诊断【9-101、游戏等领域11¨21。T.G.Dietterich指出了机器学习的四大主要研究方向lIIJ:1)通过集成学习(ensemblelearning)的方法来提高学习准确率;2)增大学习的规模;’3)不断地强化学习过程;4)学习复杂的随机模型。在1997年,他将集成学习列为机器学习的首要研究方向。直到现在,很多研究者都在研究与集成学习相关的理论和应用,使得集成学习的研究更加广泛和深入。集成学习,落脚点在集成,也就

3、是说主要研究内容是怎样利用一定数量的学习机来学习,各个学习机的学习结果又是怎样集成在一起的。可以理解为,只要是通过几个或多个学习机来共同解决一个问题,就是集成学习。一般的,把集成学习中用到的单个学习机称为基分类器或者成员分类器。在模式识别领域上,集成学习解决某一分类问题的方法是生成多个分类模型,再将这些模型利用一些方法进行决策和集成,从而构建成最终的分类系统,将这个系统称之为集成分类器系统,这种方法称为集成分类器。机器学习研究各种复杂问题,目的是为了得到理想的识别效果。针对一个有关分类的问题,为了获得良好的分类准确率,一般的做法是利用多个

4、分类器,每个分类器采用不同的处理方法,这样就得到了很多不同的结果,然后从众多的结果中挑选出一个最好的方法和相应的分类器作为这个目标问题的最好解决办法。但是在实际应用中,情况并非如此简单。经过大量的实验和总结,研究者们发现一个现象,每个分类器都会将样本错分,但是这些错分的样本并不是完全重合的,而是呈现出互补的特性。也就是说,对于同一个样本,某个分类器将它错分,其它的分类器可能不会将其错分而是正确分类。分类器之间虽然在学习过程中没有依赖性,但是学习的结果却具有信息上的互补性。这一现象激起了研究者的兴趣,信息上的互补在其他领域有所涉及,那么能否

5、在机器学习领域对这种互补性加以基于加权投票的集成在线顺序极限学习机及其应用利用,进而提高识别性能。这也就是集成分类器思想的原始出发点。每个分类器都对一个分类问题做出了贡献,但是这些贡献是不同的,合理地利用这些贡献之间的互补性来集成系统会得到较好的分类识别率。将一组分类器组成一个整体,然后综合它们的输出结果,虽然这种方式获得的分类率并不能够一定最高,一定能够比最好的单个分类器的分类率高,但是这个集成系统至少在很大程度上减少了随机选择这组分类器中的一个分类性能差的分类器导致集成系统低分类率的风险。同时,每个分类器的搜索空间不同,找寻的解也不同

6、,将这些搜寻结果集成在一起,就使搜索到趋近于目标解的概率大大增加。因此,从整体上看,集成分类器系统将比单个的分类器更容易获得较高的分类率。在研究者多年的研究和探索下,集成分类器系统无论在理论还是在实践中都取得了一定的成果。在构造集成分类器系统的过程中需要考虑多方面的因素,并且集成分类器系统本身就是一个复杂而庞大的分类系统。因此,要构造一个分类率高以及适用广泛的集成分类器系统并不简单。机器学习要解决的关键性问题就是泛化能力,而集成分类器系统最大的优点就是提高系统的泛化能力。因此,找到影响集成分类器系统分类准确率的限制因素,并且提出相应的解决

7、办法从而提高集成系统的泛化能力,意义深远。1.2集成分类器目前,研究者对集成分类器系统的分类方法各有不同,从不同的角度来分析就会得到不同的分类方法。例如,从单个分类器的生成方式不同来划分,可以将算法分为两判13J:1)各个分类器之间并不存在明显的依赖关系,可以并行生成成员分类器的算法,如Bagging、RandomForest、RotationForest等;2)各个分类器之间存在明显的依赖关系,只能串行生成成员分类器的算法,如AdaBoost和Arcing等。再如,从成员分类器之间的种类异同来划分,可以将算法分为两类:1)所有的成员分类

8、器都是同一类型的,如RandomForest和RotationForest等,将其称之为同态集成分类器系统;2)集成系统中的成员分类器是不同类型的,如堆叠式学习1141。实际上,还可以对集成分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。