欢迎来到天天文库
浏览记录
ID:53761969
大小:747.14 KB
页数:7页
时间:2020-04-24
《基于词语关联度的查询缩略-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第28卷第4期中文信息学报Vo1.28,No.42014年7月JOURNALOFCHINESEINFORMATIONPROCESSINGJu1.,2014文章编号:1003—0077(2014)04-0104—07基于词语关联度的查询缩略陈炜鹏,付瑞吉,胡熠,秦兵,刘挺(1.哈尔滨工业大学计算机科学与技术学院社会计算与信息检索研究中心,黑龙江哈尔滨150001;2.腾讯公司搜索平台部,广东深圳518057)摘要:冗长查询指用户提交的句子成份复杂的查询。当前的搜索引擎对于关键字的检索取得了较好的结果。但是对于冗长的查询
2、,如果将所有词作为关键字进行检索,往往只能返回相当有限的结果。我们尝试利用关键词之间的词语关联度,发现语义蕴含,删除“信息量”小的关键词,提高检索的效果。对于实验结果,我们分别从“面向机器”和“面向用户”两个角度进行评价。在“面向机器”的评价部分,我们根据搜索引擎返回结果的标红率和结果数进行自动评价;在“面向用户”的评价部分,我们对搜索结果文档进行人工评价。实验结果表明,我们的方法能够明显提高检索结果的数量和质量。关键词:查询缩略;词语关联度;评价方式中图分类号:TP391文献标识码:AReducingLongQue
3、riesBasedonWordsAssociationCHENWeipeng,FURuiji,HUYi。,QINBing,LIUTing(1.ResearchCenterforSocialComputingandInformationRetrievalofComputerScienceandTechnologySchool,HarbinInstituteofTechnology,Harbin,Heilongjiang150001,China;2.MinistryofSearchPlatformofTencentInc
4、.,Shenzhen,Ouangdong518057,China)Abstract:LongqueriesrefertOcomplexqueriessubmittedbyusers.Currentsearchenginesgoodatkeywordsmatc—hingwillreturn1imitedresultsifallwordsinthelongqueriesarematchedaskeywords,oftenonlyverylimitedre—suitsarereturned.Inthispaper,weat
5、tempttoimprovetheretrievalresultsbyusingtheassociationbetweenthewordstOdeletethewordswhichofferlittteinformation.Inourexperiments,tWOaspectsofevaluation,“machine一0一riented’’and“user-oriented”areused.Inthe“machine—oriented’’evaluation,thehighlightratioandtheresu
6、lthum—berofrelateddocumentsisconsidered.Inthe“user-oriented”evaluation,theretrievalresultsareevaluatedbyhu—manjudger.Theexperimentalresultsshowthatourmethodcansignificantlyimprovethequantityandqualityofsearchresults.Keywords:queryreduction;wordassociation;evalu
7、ationmethods索,最后以一定的排序算法输出相关的文档。显然,1前言用户输入的查询包含的关键词越多,检索的难度越大。在查询中,用户常常在添加很多对于检索关键查询优化是信息检索研究中的一个重要的问词的补充和修饰成份,而这些成份对检索效果的提题。本文探索有效地滤除冗长查询中冗余成份的方高并没有什么帮助,反而增加了搜索引擎的检索法,提高检索效果。难度。搜索引擎的一般原理是对于用户提交的搜索关事实上,对于用户提交给搜索引擎的查询,都是键词,搜索引擎根据关键词在网页索引库中进行检用户对于希望获得的内容的限定,因此我们可
8、以理收稿日期:2013—03—13定稿日期:2013—05—26基金项目:国家自然科学基金面上项目(61073126,61273321);国家自然科学基金(61133012);国家863前沿技术研究项目(2012AAOll102)4期陈炜鹏等:基于词语关联度的查询缩略105解为对于用户查询的任何改动,在某种程度上都已定词的重要性。经改变了用户的
此文档下载收益归作者所有