距离度量学习中的类别不平衡问题研究

距离度量学习中的类别不平衡问题研究

ID:35098305

大小:5.07 MB

页数:52页

时间:2019-03-17

距离度量学习中的类别不平衡问题研究_第1页
距离度量学习中的类别不平衡问题研究_第2页
距离度量学习中的类别不平衡问题研究_第3页
距离度量学习中的类别不平衡问题研究_第4页
距离度量学习中的类别不平衡问题研究_第5页
资源描述:

《距离度量学习中的类别不平衡问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:掘^^:TP181分类号.'■密级:公开'Iy.#苯朽六矣着工程硕±学位论文距离度量学习中的类别不平衡问题硏究(学位论文形式:其它):刘江涛研究生姓名导师姓名:张敏贡刘晋影崔自峰由请学你巧别工程硕±学位授予单位东南六_董2016年6月1T賴饰诚免疏汁篇化巧乂论文答辩日期呂__20_机器学习学位授予日期...._生__扫已研究方向_答辩委员会主席届巧宇评阅人2016年6月1日*乘兩:kf硕±学位论文

2、距寓度量学习中的类别不平衡问题研究专业名務:计貸醒术研究生姓名;刘江涛导师姓名;张敏灵刘胥影ResearchonClassImbalanceProbleminDistanceMetricLearningADissertationSubmitted化SoutheastUniversityFortheProfessionalDegreeofMas化rofEngineeringBYLiuJiantaogSuervisedb

3、pyProfessorZhangMinlingandAssistantProfessorLiuXuinygSchoolofComputerScienceandEngineeringSoutheastUniversityAril2016p东南大学学位论文独创性再明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所,知,除了文中特别加W标注和致谢的地方外论支中不包含其他人己经发表或撰写过的研究成果,也不包含为获得

4、东南大学或其它教育机构的学位或证书而使用过的材料一同工作的同志对本。与我研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名;日期:2知I)oh01东南大学学位论文使用授权声明东南大学、中国科学技术信息研巧所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可W采用影印、缩印或其他复制手段保存论文。本人电子文档的内#和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可W公布(包括W电子信息形式刊登)论文的全部内容或中、英文摘要等部

5、分内容。论文的公布(包括W电子信息形式刊登)授f东南大.争学研究生院办理。研巧生签名:I;导臟名im摘要距离度量学习学习样本之间的距离度量,为估计样本相似性提供更可靠的依据。很k近邻多经典的分类算法如、W及聚类算法如层次聚类等都非常依赖样本之间的距离度一量方式,因此,距离度量学习是机器学习和数据挖掘中类很重要的学习问题。在现实,世界中类别不平衡问题普遍存在,类别不平衡问题是指各个类别的样本数差异明显某,小类别是关注的重点些类别样本数远远小于其他类别,重要

6、性大。距离度量学习也会遭遇到类别分布不平衡的情况。距离度量学习算法通常通过优化某个距离度量损失函。,数但是当类别不平衡时由于小类别的样本数少,在已有的,得到新的距离度量方式距离度量学习算法中对学习过程的影响较小,导致算法通常会关注大类样本而忽略小类,,,样本距离度量的准确性。然而在类别不平衡问题中小类样本重要性更高距离度量学习应该更关注小类样本距离度量学习的准确性。目前尚无对距离度量学习中类别不平衡问题的研究。,主要取得了W下成果本文针对距离度量学习中的类别不平衡问题进行研究

7、:IMLMNN1^LMNN算法为基础,提出考虑类别不平衡性的距离度量学习算法()l一LMNN的基础算法种有监督的距离度量学习算法,在距离度量学习算法。此方法是上处理类别不平衡性带来的问题,优化加权的距离度量损失函数,样本权重与其所在类别的样本数成反比。因此IMLMNN使得小类具有更高的权重,小类样本的距离度量带。来的损失在学习过程中的影响就更大,导致小类样本距离度量的准确性更高口习阶段仅使得小类的距离度量更准确,而没有改变小类样本)由于在距离度量学习的分类任务中仍要考虑类别

8、分布的不平衡性。因此,在集的大小,所在基于度量学分类阶段使用考虑类别不平衡性的改进的kNN算法IMKNN算法进行分类。IMKNN是一kNN,近邻样本加权投票进行决策种加权的算法,样本权重与其所在类别的样本数成反比。此外IMLMNN算法在学习到距离度量的基础上使用IMKNN方法进行分类,也可一。用于多类问W看做是种新型的类别不平衡学习方法此方法既适用于两类问题,又适题。在多个两类和多类数据集上的实验结果表明,IML

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。