欢迎来到天天文库
浏览记录
ID:50425157
大小:2.30 MB
页数:64页
时间:2020-03-05
《基于有监督学习的查询扩展技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于有监督学习的查询扩展技术研究李维银2015年1月中图分类号:TP391UDC分类号:004基于有监督学习的查询扩展技术研究作者姓名李维银学院名称计算机学院指导教师施重阳答辩委员会主席樊孝忠申请学位工学硕士学科专业计算机科学与技术学位授予单位北京理工大学论文答辩日期2015年1月QueryExpansionBasedonSupervisedLearningCandidateName:WeiyinLiSchoolorDepartment:ComputerScienceFacultyMentor:ChongyangShiChair,ThesisCommittee:XiaozhongFanDeg
2、reeApplied:MasterofEngineeringMajor:ComputerScienceandTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefense:January,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示
3、了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要随着互联网技术的迅猛发展,网络中的信息呈现指数级增长,网络的日益普及,逐渐地改变着人们获取信息的主要方式。而面对网络中的海量数据,如何从中快速准确地获取用户需要的信息成为亟需解决的重要问题。信息检索技术为用户获取互联网中的信息提供了有效帮助,但广泛存在的词不匹配问题会使返回的查询结果中存在着与用户查询不相关的结果,影响检索系统的性能。查询扩展作为查询优化的重要组成部分,通过对查询条件进行扩展,可以使检索系统更好地理解用户的查询意图,提高检索的准确率。本文提出了一种基于有监督学习的查询扩展方法。当前查询扩展领域的常用研究方法主要为基于伪
4、相关反馈的方法,通过传统伪相关反馈得到的扩展词中往往包含一些与原查询无关的词的问题。本文利用通过有监督学习训练好的SVM分类器对候选扩展词进行筛选,进一步去掉与原查询无关的词,提高扩展词的质量。本文提出的查询扩展方法通过对候选扩展词的进一步筛选来确定扩展词。首先结合检索模型对原查询进行检索,从得到的相关文档集中抽取关键词,根据关键词的词分布特征确定候选扩展词,然后通过有监督训练的分类器进行再次筛选确定扩展词。相较于传统的扩展方法,本方法中综合了候选扩展词的各项统计特征,通过可靠数据集对分类器进行训练,利用训练好的可以判断关键词是否适合作为扩展词的分类器对候选关键词进行筛选,根据分类结果及候选
5、扩展词评分确定扩展词,将得到的扩展词与原查询组成新的查询条件进行检索。在TREC数据上的实验结果表明,本文提出的基于有监督学习的查询扩展方法相较于传统查询扩展方法和未经过查询扩展的方法对信息检索系统的查询准确率和召回率都有明显提高。关键词:查询扩展;有监督学习;信息检索;伪相关反馈I北京理工大学硕士学位论文AbstractWiththerapiddevelopmentofInternettechnology,informationininternetinthepresentexponentialgrowth,andtherisingpopularityoftheinternetgradual
6、lychangingpeople’smainwaytoobtaininformation.Inthefaceofhugeamountsofdataininternet,howtoobtaintheinformationuserwantedrapidlyandaccuratelyhasbecomeanimportantproblemneedtosolve.Informationretrievaltechnologyprovideseffectivehelpforuserstoobtaininformationfrominternet,buttheproblemoftermmismatchcan
7、lowertheaccuracyofthesystembecausesomeirrelevantdocumentswillbereturnedtouserunderthissituation.Asakeycomponentofqueryoptimization,queryexpansionplaysanimportantroleinimprovingtheperformanceofinformationret
此文档下载收益归作者所有