欢迎来到天天文库
浏览记录
ID:33479469
大小:1.57 MB
页数:52页
时间:2019-02-26
《基于ls-svm的多标签分类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Multi—labelClassificationAlgorithmBasedonLS.SVMADissertationSubmittedtoNanjingNormalUniVersi够F0rtheAcademicDegree0fMasterofEngineeringBYHuiYINSupervisedbVSUDerVlSedbVProf.JianhuaXUSchoolofComputerScienceand1’echnologyNanjingNomalUniVersityA研l201O学位论文独创性声明本人郑重声明
2、:1、坚持以“求实、创新’’的科学精神从事研究工作。2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。3、本论文中除引文外,所有实验、数据和有关材料均是真实的。4、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表或撰写过的研究成果。5、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。研究生签名:日期:学位论文使用授权声明本人完全了解南京师范大学有关保留、使用学位论文的规定,学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版;有权将学位论文用于非赢利目的的少量复
3、制并允许论文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进行检索;有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。研究生签名:日期:‰摘要捅要分类是用训练样本建立的模型将测试样本分到一个或多个类中。传统的单标签分类问题是假设类之间相互独立,一个样本仅能归为其中一类,而在实际应用中,样本会和多个类相关联,需将样本同时归到多个类,这就是多标签分类问题。目前,多标签分类算法的研究已经取得了很多成果,大致可分为算法有关和算法无关两大类方法。算法有关的方法虽然没有改变数据的结构以及类与类之问的
4、联系,但是由于它需要花费大量时间去解优化问题,因此难于应用到较大规模的数据集。算法无关的方法不需要考虑标签的相关性,因此易于实现,并且运行速度较快。从分解的角度可将算法无关的方法分为一对一分解、一对多分解以及幂集法等。由于一对一分解出的数据集规模比一对多要小,并且分解出的两类样本的数量更平衡,因此,一对一分解策略更受科研人员的青睐。本文采用一对一分解策略,将多标签分类问题分解成后(缸1)/2个两类单标签和两类双标签的分类子问题,对分解后的数据子集建立LS。SVM分类模型,当出现两类单标签子问题时,使用传统的Ls.sv
5、M分类算法直接处理;当出现两类双标签时,将同时拥有两个标签的样本看成混合类,并将标签值设为O,对新的数据子集再用LS.SVM分类器进行处理。两类双标签建立的分类模型一般将分类阈值f设为±O.5。为了得到更佳的分类阂值,本文根据jF类.混合类、负类一混合类的数据分布分别求得两个分类阈值,通过实验比较说明优化分类阈值能改善算法的性能。最后,利用投票方法将测试数据分到一个或多个类中。在算法的实验部分,本文归纳了不同的预测评价准则,并介绍四个基准的数据集以及数据集标签的描述。对情感、景象、酵母和基因这四个数据集分别采用本文的
6、方法预测,对于参数y和盯2选择,LS—SVM模型采用网格搜索的方法,设定这两个参数的可行区间,由计算机自动对各参数变量组合并逐一择优,使用留一法选取最佳参数值。对情感数据集的预测结果说明,本文的方法在汉明损失、准确度、1错误率以及排序损失上都有较好的结果,而其他几个评价标准也均列在前列;景象数据集上的实验结果表明,本文的预测方法在汉明损失和查全率上具有较好的结果;本文采用的方法在酵母数据集上有较高的查全率;而对基因数据集,现存的多标签分类方法以及本文所采用的基于LS.SvM算法均有较好的预测效果。对本文的算法和现存的
7、多标签分类算法的比较结果显示,没有一个算法能够保证其预测结果在所有的评价准则上都是最优的,但是本文的算法在某些性能上优于现有的算法。关键词:LS.SVM,多标签分类,一对一分解策略,阈值选择AbstractClassificationisamethodthatclassifiesas锄pleintooneormorecIassesusmgamodeltrainedbytrainingsamples.Traditionalsinglelabelproblemisbasedontheassumptionthatclass
8、esareindependent,andones锄plecanonlybelongtooneottheseclasses.Butinpractical印plication,onesamplemayberelatedtomultipIeclasses,thusitShouldbeclassifiedintomorethaIloneclass,an
此文档下载收益归作者所有