半监督排序学习算法研究

半监督排序学习算法研究

ID:34042160

大小:2.97 MB

页数:61页

时间:2019-03-03

半监督排序学习算法研究_第1页
半监督排序学习算法研究_第2页
半监督排序学习算法研究_第3页
半监督排序学习算法研究_第4页
半监督排序学习算法研究_第5页
资源描述:

《半监督排序学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中圈绅孽敢求犬誊硕士学位论文半监督排序学习算法研究作者姓名学科专业导师姓名完成时间亟L明一一一一一一一Universit)ofScien(andTechnologyofCUniversityotcienceandechnolo。‘。‘.qvofChinaAdissertationformaster’SdegreeResearchonSemi-·supervisedRankingAlgorithmsAuthor:ZhigaoMiaoSpeciality:ComputeSoftwareandTheorySupervisor:FinishedTime:Prof.KeTan

2、g4,2014中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。作者签名:雉玉签字日期:砷,伊.西,多中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国学位论文全文数据库》等有关数据库

3、进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。函公开口保密——年作者签名:i竖塾童签字日期:丝!鲤!:£:』』导师签名:签字日期:甲f7.÷!_摘要排序学习是当前信息检索与机器学习领域研究的热点问题之一,它在诸如文档检索、协同过滤、自然语言解析等领域有广泛的应用。排序学习的目标就是应用机器学习技术自动地从训练数据中学习出一个排序函数对目标对象进行排序。针对排序学习问题,目前人们已经提出了很多算法,根据输入表示以及损失函数的不同,它们大致可分为点级方法(pointwi

4、seapproach)、对级方法(pairwiseapproach)和列表级方法(1istwiseapproach)三类方法。排序学习是一种有监督学习,因此需要提供一个带标记训练数据集。但是在实际问题中,获取带标记的数据是费时而且昂贵的。为了在排序问题中利用大量存在的未标记样例,自然而然地产生了半监督排序学习问题。借助半监督学习技术从大量无标签数据集中发现隐含的排序信息,对于减少标注代价,提高排序算法的性能具有非常重大的实际意义。因此本文旨在将半监督学习技术应用于排序学习问题,从而开发出半监督情况下的排序学习算法。本研究的主要工作如下:首先,本文提出了正则化提升(R

5、egularizedBoosting)学习方法的一般框架框。基于这一框架设计了基于RankBoost算法的半监督排序学习算法。正则化(regularization)是一种具有广泛应用的半监督学习技术,它通过使学习器优化带正则化惩罚项的损失函数,从而利用未标记样例来辅助提高学习性能。提升(boosting)是一种简单高效并且具有理论支持的集成学习方法,它通过渐进式地组合一系列简单的模型得到一个性能更优的模型。通过结合这两种重要的技术,把pairwise型排序学习算法RankBoost扩展到了半监督情况下。具体而言,我们在原有的损失函数中引入基于“光滑性假设”(smoo

6、thassumption)的正则化惩罚项,保证相似的样例获得接近的排序得分。进一步,通过理论分析得出损失函数最小化的提升算法。最终设计出的算法既合理地利用了己有的半监督学习假设又保留了boosting方法简单高效的优点。其次,本文提出了把listwise型排序学习算法扩展到半监督情况下的一般框架。在此框架下,首先用半监督学习技术为一部分无标记样例贴上伪标签,然后运行传统的listwisc型的算法。基于这一框架我们把典型的listwisc型排序算法AdaRank扩展到了半监督排序学习的情形。具体地,算法首先在每个查询内部通过标记传播(1abelpropagation)

7、算法给一部分无标记样例附上标签。然后在增加的数据集上运行改进的正则化形式的AdaRank算法。受益于listwise方法的优点,这种扩展listwise方法的半监督排序学习算法将会提高半监督排序算法的性能。最后,在公开数据集Letor上与已有的半监督排序学习算法进行比较实验,表明了本文所提出的框架的可行性与相应算法的有效性。l摘要关键词:排序学习,半监督学习,正则化,提升,RankBoost,AdaRankIIABSTRACTABSTRACTLearningtorankisahotresearchtopicinthefieldofinformationretri

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。