信息检索中基于图的半监督排序学习问题研究

信息检索中基于图的半监督排序学习问题研究

ID:37329645

大小:3.05 MB

页数:57页

时间:2019-05-22

信息检索中基于图的半监督排序学习问题研究_第1页
信息检索中基于图的半监督排序学习问题研究_第2页
信息检索中基于图的半监督排序学习问题研究_第3页
信息检索中基于图的半监督排序学习问题研究_第4页
信息检索中基于图的半监督排序学习问题研究_第5页
资源描述:

《信息检索中基于图的半监督排序学习问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南开大学硕士学位论文信息检索中基于图的半监督排序学习问题研究姓名:刘金莉申请学位级别:硕士专业:计算机软件与理论指导教师:黄亚楼20090401摘要随着网络技术的迅速发展和互联网规模的不断扩大,互联网成了全球晟大、最广泛使用的信息库,如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索技术越来越受到人们的重视。信息检索是指从大量的实例集合中查找到与给定的查询(query)相关的信息子集,是处理海量信息的重要手段。目前绝大多数的信息检索系统中,其检索出来的信息(如文档)都以排序的方式返回给用户。因此,如何高效地对信息进行排序成

2、为信息检索研究的核心问题之一。传统的排序学习方法包括无监督学习和监督学习方法。无监督学习是基于经验估计的,对搜索结果有一定的盲目性,效果不是很好。监督学习需要大量的人工标注样本,而标注样本是一项耗时长、难度大且代价昂贵的工作。与此同时,无标注样本数量巨多、获取简单且廉价,如何利用无标注样本辅助学习,也成为一个重要的研究课题。除此之外,传统的排序学习方法以相似度为基础,只关注局部信息,使得一些相似度不高却高度相关的实例排名靠后,从而影响了排序性能。为解决上述问题,本文将基于图的半监督学习应用到信息检索中,实现了基于图的半监督排序学习。

3、已有基于图的半监督排序方法只把查询作为标注信息,从某种程度上说并没有合理利用标注信息,因而本文从合理利用标注信息入手,结合图中的流形结构,分析得出处于同一流形结构中节点间的影响程度要大于处于不同流形结构中节点间的影响程度。基于以上分析本文提出并实现了基于权重调节的半监督图排序算法,并成功应用于文档检索中。为了更有效的利用同一实例的多种表现形式,使得在克服单图学习缺陷的同时提高排序性能,本文还将基于图的半监督排序学习扩展到多视图学习中,提出了两种不同的多图融合方法一图融合算法和结果融合算法,文中还结合损失函数从理论上对两种算法进行了比

4、较分析,并将它们成功应用到论文检索中。关键词:信息检索排序学习半监督学习图学习多图融合Abstractmulti-graphpropagationareproposed.Wealsoanalyzethetwomethodswiththelossfunction,applythemtoretrievalofpapers.KeyWords:InformationRetrieval,LeaningtoRank,Semi—SupervisedLearning,GraphLearning,MultipleGraphPropagation.n1

5、南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:训舍研砷年“≯日南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印

6、刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。籼并警磊f荆EtM年(,月f。\本授权书。指导教师签名:学位论文作者签名:解密时间:年月日各密级的最长保密年限及书写格式规定如下:第一章绪论第一章绪论1.1引言随着社会信息化程度的迅速提高,因特网的日益普及,数字图书馆和各种各样的电子信息载体的不断涌现,使得信息的总量以

7、惊人的速度不断地膨胀,据统计,数字化信息每18个月就翻一群11,迫切需要更有效的理论和方法来处理与日俱增的信息。信息检索适应了这一要求,并成为当前信息处理研究领域中的重要课题。信息检索是指从大量的文档集合中查找到与给定的查询(query)相关的信息子集,包括信息的表示存储、检索和排序[21。检索模型的选取对信息检索的结果有重要的影响。上世纪七十年代开始,人们开始将机器学习方法与信息检索结合起来,包括以布尔模型、向量空间模型、概率模型等为代表的无监督学习以及以排序支持向量机、AdaRank、AdaBoost、Listnet等为代表的监

8、督学习都取得了一定的成果。近年来,基于图理论的PageRank在搜索引擎Google上取得了重大成功,使得基于图的学习成为新的研究热点。传统的无监督学习由于对解空间的搜索带有一定的盲目性,因而检索结果在一定程度上精确度不高;监督学习需

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。