欢迎来到天天文库
浏览记录
ID:34798922
大小:1.71 MB
页数:57页
时间:2019-03-11
《浅论个性化信息检索中用户兴趣模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP391.2国际图书分类号:681.37工学硕士学位论文个性化信息检索中用户兴趣模型的研究硕士研究生:邹博伟导师:张宇副教授申请学位级别:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2009年6月23日授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:681.37DissertationfortheMasterDegreeinEngineeringRESEARCHOFUSERS'INTERESTMODELINPERSONALIZEDINFORMATIONRETRIEVALCandidate
2、:ZouBoweiSupervisor:AssociateProf.ZhangYuAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June23,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要下一代搜索引擎的一个突出特点是个性化,个性
3、化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用这些用户信息,提高信息检索系统的性能。作为个性化信息检索中的重要研究子课题,用户兴趣模型研究通过对用户检索和浏览历史的分析,建立用户短期与长期兴趣模型,并随着用户信息和检索领域的变化对用户兴趣模型进行更新。用户兴趣模型研究面临的主要问题是,缺乏合理的任务划分和标准评测集,无法对用户兴趣模型进行公正的评价。因此,本文通过对个性化检索进行合理的任务划分,并利用开发的语料标注辅助系统,为其建立了标准评测集,以公正地评价和比较用户兴趣模型。个性化信息检索可以根据用
4、户的检索兴趣返回个性化检索结果。本文首先提出了用户短期兴趣模型,根据用户检索对象的变化识别包含新检索兴趣的查询。同时,引入TextTiling方法并对其进行改进,使系统可以自动选择合适的动态阈值并准确发现用户检索兴趣的转移。在本文构建的标准评测集上的实验结果表明,改进的TextTiling方法使得用户新兴趣发现系统性能提高了16.4%,而且使得最终的个性化信息检索系统的性能提高了3.8%。本文同时还提出用户长期兴趣模型,采用余弦相似度法和迭代法确定各个用户单一模型的权重,将单一模型合并为用户长期兴趣模型。在本文构建的基于TDT语料的标准评测集上的实验表明,基于余弦相似度法和迭
5、代法的用户长期兴趣模型使系统性能提高了7.3%,并使得最终的个性化信息检索系统在用户短期兴趣模型的基础上提高了8.2%。关键词个性化检索;用户兴趣模型;TextTiling;迭代法--I哈尔滨工业大学工学硕士学位论文AbstractAnimportantcharacteristicofnextgenerationsearchengineispersonalization.PersonalizedInformationRetrieval(PIR)focusesonusers.Itcapturesusers’interestindifferentkinds(explicit,im
6、plicitinterestandinterestofsimilarusers).Theseinformationofusersareintegratedandusedtoimprovetheresultofinformationretrievalsystem.Theestablishmentandupdateofusers’interestmodelisanimportantsubtaskofpersonalizedinformationretrieval.Itstaskistoestablishtheusers’short-termandlong-terminterest
7、modelbyanalyzingusers’retrievalandbrowsinghistory.Theusers’interestmodelwillalsobeupdatedwiththechangeofusers’informationandretrievalareas.Theprobleminthistaskisthelackoftask’sdivisionandstandardevaluationdataset.Therefore,thispaperdefinesthreesubtasksof
此文档下载收益归作者所有