欢迎来到天天文库
浏览记录
ID:35098305
大小:5.07 MB
页数:52页
时间:2019-03-17
《距离度量学习中的类别不平衡问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:掘^^:TP181分类号.'■密级:公开'Iy.#苯朽六矣着工程硕±学位论文距离度量学习中的类别不平衡问题硏究(学位论文形式:其它):刘江涛研究生姓名导师姓名:张敏贡刘晋影崔自峰由请学你巧别工程硕±学位授予单位东南六_董2016年6月1T賴饰诚免疏汁篇化巧乂论文答辩日期呂__20_机器学习学位授予日期...._生__扫已研究方向_答辩委员会主席届巧宇评阅人2016年6月1日*乘兩:kf硕±学位论文
2、距寓度量学习中的类别不平衡问题研究专业名務:计貸醒术研究生姓名;刘江涛导师姓名;张敏灵刘胥影ResearchonClassImbalanceProbleminDistanceMetricLearningADissertationSubmitted化SoutheastUniversityFortheProfessionalDegreeofMas化rofEngineeringBYLiuJiantaogSuervisedb
3、pyProfessorZhangMinlingandAssistantProfessorLiuXuinygSchoolofComputerScienceandEngineeringSoutheastUniversityAril2016p东南大学学位论文独创性再明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所,知,除了文中特别加W标注和致谢的地方外论支中不包含其他人己经发表或撰写过的研究成果,也不包含为获得
4、东南大学或其它教育机构的学位或证书而使用过的材料一同工作的同志对本。与我研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名;日期:2知I)oh01东南大学学位论文使用授权声明东南大学、中国科学技术信息研巧所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可W采用影印、缩印或其他复制手段保存论文。本人电子文档的内#和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可W公布(包括W电子信息形式刊登)论文的全部内容或中、英文摘要等部
5、分内容。论文的公布(包括W电子信息形式刊登)授f东南大.争学研究生院办理。研巧生签名:I;导臟名im摘要距离度量学习学习样本之间的距离度量,为估计样本相似性提供更可靠的依据。很k近邻多经典的分类算法如、W及聚类算法如层次聚类等都非常依赖样本之间的距离度一量方式,因此,距离度量学习是机器学习和数据挖掘中类很重要的学习问题。在现实,世界中类别不平衡问题普遍存在,类别不平衡问题是指各个类别的样本数差异明显某,小类别是关注的重点些类别样本数远远小于其他类别,重要
6、性大。距离度量学习也会遭遇到类别分布不平衡的情况。距离度量学习算法通常通过优化某个距离度量损失函。,数但是当类别不平衡时由于小类别的样本数少,在已有的,得到新的距离度量方式距离度量学习算法中对学习过程的影响较小,导致算法通常会关注大类样本而忽略小类,,,样本距离度量的准确性。然而在类别不平衡问题中小类样本重要性更高距离度量学习应该更关注小类样本距离度量学习的准确性。目前尚无对距离度量学习中类别不平衡问题的研究。,主要取得了W下成果本文针对距离度量学习中的类别不平衡问题进行研究
7、:IMLMNN1^LMNN算法为基础,提出考虑类别不平衡性的距离度量学习算法()l一LMNN的基础算法种有监督的距离度量学习算法,在距离度量学习算法。此方法是上处理类别不平衡性带来的问题,优化加权的距离度量损失函数,样本权重与其所在类别的样本数成反比。因此IMLMNN使得小类具有更高的权重,小类样本的距离度量带。来的损失在学习过程中的影响就更大,导致小类样本距离度量的准确性更高口习阶段仅使得小类的距离度量更准确,而没有改变小类样本)由于在距离度量学习的分类任务中仍要考虑类别
8、分布的不平衡性。因此,在集的大小,所在基于度量学分类阶段使用考虑类别不平衡性的改进的kNN算法IMKNN算法进行分类。IMKNN是一kNN,近邻样本加权投票进行决策种加权的算法,样本权重与其所在类别的样本数成反比。此外IMLMNN算法在学习到距离度量的基础上使用IMKNN方法进行分类,也可一。用于多类问W看做是种新型的类别不平衡学习方法此方法既适用于两类问题,又适题。在多个两类和多类数据集上的实验结果表明,IML
此文档下载收益归作者所有