欢迎来到天天文库
浏览记录
ID:37089610
大小:3.51 MB
页数:112页
时间:2019-05-17
《极限学习机不平衡数据分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP309学校代码:10697密级:公开学号:201210197极限学习机不平衡数据分类算法研究学科名称:计算机软件与理论作者:唐晓芬指导老师:陈莉教授西北大学学位评定委员会二〇一七年十二月ResearchonExtremeLearningMachineforImbalancedDataClassificationAthesissubmittedtoNorthwestUniversityinpartialfulfillmentoftherequirementsforthedegreeofDoctorofPhilosophyinComputerSoftwareandTheory
2、ByTangXiaofenSupervisor:ChenLiProfessorDecember2017西北大学学位论文知识产权声明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到《中国学位论文全文数据库》或其它相关数据库。保密论文待解密后适用本声明。学位论文作者签名:指导教师签名:年月日年月日---------
3、-----------------------------------------------------西北大学学位论文独创性声明本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:年月日摘要摘要不平衡数据分类是数据挖掘和模式识别领域的一个重要研究内容,引起了国内外学者的广泛关注。实际应用中很多数据样本具有类分
4、布不平衡问题,现有不平衡数据分类算法关注整体识别率,忽视小类样本识别率。因此,如何在提高小类样本识别率的同时兼顾大类样本的识别率成为数据挖掘领域的一个极具挑战性的问题。极限学习机具有快速、简单易实现、泛化性较强的特点,因而被广泛应用于分类问题研究,但极限学习机学习不平衡数据研究起步较晚,相比传统神经网络需要更多的隐含层节点,输出稳定性受随机参数影响,训练样本权值依赖算法输入并影响算法的泛化性能,算法抗噪声的能力有待提高等问题。已有研究表明,传统的局部优化算法训练神经网络难以对此类问题进行有效求解。基于种群的优化算法是受自然界群体智能启发而提出,是寻找优化问题近似最优解的一种有效方法,
5、已经被广泛用于训练神经网络,表现出了较强的全局优化能力。此外,集成学习技术是减少极限学习机随机参数对算法输出稳定性影响的另一种方法。本文的研究正是基于此展开,主要从如何提高加权极限学习机学习不平衡数据能力的角度出发,提出了三种加权极限学习机不平衡数据分类算法,并改进了一个应用于蛋白质泛素化位点预测问题的极限学习机。论文的主要研究工作如下:1.针对加权极限学习机存在非最优节点影响网络的泛化性能,随机初始参数影响网络输出稳定性问题,提出一种基于自适应差分进化算法优化加权极限学习机的分类算法。自适应差分进化算法的参数自适应策略可用于优化神经网络非最优的节点及隐含层节点参数,通过选择适应度函
6、数引导自适应差分进化算法优化加权极限学习机的输入层权值、隐含层偏置、训练样本权重,进而优化网络结构。在不平衡数据集上的实验结果表明,该算法具有更好的泛化性能和更稳定的分类结果。2.针对加权极限学习机的泛化性能及输出稳定性受输入权值、隐含层节点偏置和训练样本权值影响问题,提出了结合改进人工蜂群算法和加权极限学习机的分类算法。利用改进人工蜂群算法良好的全局寻优能力对加权极限学习机模型的输入权值、隐含层节点偏置和训练样本权值进行迭代优化,将输入权值和隐含层偏置约束在合理的范围内,从而提高加权极限学习机的泛化能力。与已有算法相比,该方法不仅能有I西北大学博士学位论文效地提高极限学习机的泛化能
7、力和输出稳定性,还能得到更紧凑的网络结构。3.针对加权极限学习机随机参数影响算法输出稳定性,及样本噪声影响算法分类性能的问题,提出集成加权极限学习机。将加权极限学习机作为Adaboost算法的弱分类器,利用各类样本分布不平衡特性的误差计算方式,改善了基分类器性能,增强算法的抗噪声能力。实验结果表明,集成加权极限学习机具有更好的大类和小类样本识别率,验证了算法的有效性。4.针对未标注泛素化位点的蛋白质序列样本数据具有类重叠性,提出了基于加权极限学习机蛋白质泛
此文档下载收益归作者所有