基于plsi的信息检索中查询扩展相关技术与研究精选

基于plsi的信息检索中查询扩展相关技术与研究精选

ID:34052221

大小:779.00 KB

页数:56页

时间:2019-03-03

基于plsi的信息检索中查询扩展相关技术与研究精选_第1页
基于plsi的信息检索中查询扩展相关技术与研究精选_第2页
基于plsi的信息检索中查询扩展相关技术与研究精选_第3页
基于plsi的信息检索中查询扩展相关技术与研究精选_第4页
基于plsi的信息检索中查询扩展相关技术与研究精选_第5页
资源描述:

《基于plsi的信息检索中查询扩展相关技术与研究精选》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、ClassifiedIndex:TP391.2U.D.C.:681.37DissertationfortheDegreeofM.Eng.RESEARCHONRELATEDTECHNOLOGIESOFQUERYEXPANSIONININFORMATIONRETRIEVALBASEDONPLSICandidate:Supervisor:AcademicDegreeAppliedfor:Specialty:Affiliation:DateofDefence:Degree-Conferring-Institution::Z

2、angWenmaoProf.LiShengMasterofEngineeringComputerScienceandTechnologySchoolofComputerScienceandTechnologyJune,2008HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着信息时代的到来,各种信息资源越来越丰富,尤其是互联网资源。为了能够从这些海量数据中获取所需要的各种各样信息,需要高效的信息检索系统,它是人们获取所需信息的钥匙。当前的信息检索系统普遍存在着很难在持续快速增

3、长的互联网上准确、全面地检索与用户查询要求相关的文档的问题。针对这些问题,本文从文档文摘和查询扩展两个方面进行了研究,在抽取文档文摘的基础上提出了基于概率潜在语义索引(PLSI,ProbabilisticLatentSemanticIndexing)模型的查询扩展方法,并且将该方法同目前普遍采用的其它相关反馈方法在检索性能上进行比较,来改进检索性能。主要研究内容包括:1.面向检索的文摘。本文对机械文摘的一般方法进行了研究,针对检索任务,生成一个面向检索的文摘将对提高检索的效率起到积极的作用。本文在语言模型框架下,验证

4、了文摘在对检索性能上的影响。2.基于概率潜在语义索引模型的查询扩展。该方法在对查询选取扩展词时充分利用了语言成分以及自然语言词汇具有多义性和歧义性,并且考虑了上下文对语义的限定等因素。通过在TREC测试集上进行的实验表明,相对于未进行查询扩展的简单的语言模型,本文的方法在检索性能上取得了一致性大幅的提高。3.分析比较了基于PLSI的查询扩展方法和目前普遍采用的伪反馈方法在检索性能上的差别。通过在TREC测试集上的实验表明,本文提出的基于PLSI的查询扩展方法和目前普遍采用的几种伪反馈方法在检索性能上相比,其检索性能都

5、优于目前普遍采用的伪反馈方法,检索性能提升幅度最大达到45.74%,提高接近了一半的检索性能。因为伪反馈的有效性依赖于检索结果的相关度,它能克服上述伪反馈方法的不足。关键词信息检索;查询扩展;概率潜在语义索引;文摘-I-哈尔滨工业大学工学硕士学位论文AbstractWiththeincreasinginformationavailableintheinformationera,theInternetresourcesbecomemoreandmorericher.Inordertoobtainawiderangeo

6、finformationwhatyouneeded,theefficientinformationretrievalsystemisrequiredanditisthekeytoobtaintherequiredinformation.Itisverydifficultforthecurrentinformationretrievalsystemtosearchaccurateandroundrelevantdocumentfortheuser’squeriesonthesustainrapidgrowthofthe

7、Internet.Fortheseproblems,thepresentthesismainlyresearchintwoaspectsofdocumentsummarizationandqueryexpansion.ThisthesisproposesthequeryexpansionmethodbasedonProbabilisticLatentSemanticIndexing(PLSI)Modelonthebasisofextractingthedocumentsummarization,andcomparet

8、hemethodwithothercommonlyusedrelevantfeedbackmethodsontheretrievalperformance,toimprovetheretrievalperformance.Thefollowingaremainresearchcontentinthisdissertation:1.Retriev

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。