欢迎来到天天文库
浏览记录
ID:33982895
大小:2.38 MB
页数:64页
时间:2019-03-03
《基于组合抽样技术的集成学习算法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、谨以此文献给在学业和生活中给予帮助过的老师,同学和家人!刘国强基于组合抽样技术的集成学习算法研究与应用学位论文完成日期:指导教师签字:答辩委员会成员签字:独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含未获得l注!翅遗直基丝噩噩缱别直明的:奎拦互窒2或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:参f阕7幺签字日期:锄『/竹月习日学位论文版权使用授权书本学位论文作
2、者完全了解学校有关保留、使用学位论文的规定,并同意以下事项:l、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。2、学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中国学术期刊(光盘版)电子杂志社”用于出版和编入CNKI《中国知识资源总库》,授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。(保密的学位论文在解密后适用本授权书)学位论文作者签名参7调1厶签字日期:29ff年j月研日导师签字:铂胀签字日期:和,f年,月凹日,,t摹,jJ,基于组合
3、抽样技术的集成学习算法研究与应用合抽样技术的集成学习算法研究与应用摘要分类和集成学习是当今机器学习领域的主要研究内容。传统分练数据集各类样本的数目基本平衡和误分类代价相同等假设,性能评价指标,因此在解决不平衡数据集分类问题时大大降低了少数类的分类性能,模型的实际工程应用效果不佳。不平衡数据集往往具有少数类数据绝对或相对稀少、噪声数据干扰大、数据碎片多等特点,应用单一分类器难以实现准确分类。提升不平衡数据集分类性能的方法主要包括数据重采样、训练集划分、特征选择、代价敏感学习、分类器集成、单类学习等方法。本文通过实验分析单纯依赖数据层面或算法改进层面的方法都不能较高地提高少数类的分
4、类性能。目前常用的SMOTE等重采样方法存在少数类分布稀疏、扩充数据盲目性、多数类信息损失等问题,Adaboost等集成学习方法也存在多数类过拟合或分类器性能退化问题。所以,有效提高少数类的分类精度并且不影响分类器总体分类性能是一个值得深入研究的课题。本文从改善不平衡数据集的数据分布、适当的算法改进以及恰当的分类器性能评价等方面讨论,提出了将组合重抽样方法与改进Adaboost算法相结合的TSNIMA分类器集成算法。该算法根据样本集内部分布特性,在SMOTE重抽样方法的基础上自适应选择近邻,从而实现在合成少数类样本时减小少数类分布稀疏性对新样本的影响程度,改善训练样本集的不平衡
5、度。由于Adaboost算法的特点是在学习阶段根据分类器误差的大小统一调整样本权重,所以不适合解决不平衡数据集分类学习问题。本文针对不同类别的样本采用多种权重修改策略,有效防止了边界样本、噪声数据在学习时对分类器性能的恶化,提高了少数类样本的识别率。将所提出的算法在WEKA开源平台上实现,应用UCI标准数据集中的不平衡数据进行验证。实验证明在多项分类器性能指标上,TSNIMA算法都优于SMOTEBoost、Asymboost以及单一分类等方法。本文创新性地应用这种组合抽样与集成学习方法来解决实际工程中的烟叶香型分类问题。实验证明,TSNIMA集成分类器在面对不平衡度较高的烟叶香
6、型基于组合抽样技术的集成学习算法研究与应用分类数据时表现良好,少数类分类错误率最低,而且多数类样本分类精度仍有~定提高。研究表明,以决策树为基分类器的TSNIMA模型还可以为用户提取出更有价值的规则。通过工程应用验证,该算法具有良好的鲁棒性和应用推广价值。关键字:不平衡数据集;重抽样;集成学习;分类;SMOTE;AdaBoost;nclassificationtechnologiesassumedthat,thereareinsamedistributionforthedifferentclassoftrainingdata.Themisclassificationatanys
7、ituationbringsthesameerrorcosts.Basedontheseassumptions,theclassifieroperatesonwiththegoalofhighestaccuracy.So,whensolvingtheofimbalanceddata,thetraditionalclassifiermeetstheproblemthattheperformanceoftheminoritysampleshasgreatlyreducedanditperform
此文档下载收益归作者所有