资源描述:
《基于用户日志的查询扩展统计模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1000-9825/2003/14(09)1593©2003JournalofSoftware软件学报Vol.14,No.9∗基于用户日志的查询扩展统计模型121+崔航,文继荣,李敏强1(天津大学系统工程研究所,天津300072)2(微软亚洲研究院,北京100080)AStatisticalQueryExpansionModelBasedonQueryLogs121+CUIHang,WENJi-Rong,LIMin-Qiang1(InstituteofSystemsEngineering,TianjinUniversity,T
2、ianjin300072,China)2(MicrosoftResearchAsia,Beijing100080,China)+Correspondingauthor:Fax:86-22-27404796,E-mail:mqli@tju.edu.cnhttp://www.tju.edu.cnReceived2002-03-12;Accepted2002-08-13CuiH,WenJR,LiMQ.AstatisticalqueryexpansionmodelbasedonqueryLogs.JournalofSoftware,2
3、003,14(9):1593~1599.http://www.jos.org.cn/1000-9825/14/1593.htmAbstract:Ambiguityofquerytermshasbeenalong-standingproblemininformationretrievalfield,whichbecomesmoreseriousinWebsearching.Amethodforautomaticqueryexpansionbasedonquerylogsobtainedfromusers’dailyusageis
4、suggested.Thismodelestablishesprobabilisticrelationshipbetweentermsindocumentsandinuserqueriesthroughstatisticallearningfromthelog,andselectshigh-relatedexpansiontermsbasedonBayesiantheory.Theseexpansiontermsareaddedintotheoriginalquerytoformulateanewoneinordertoimp
5、rovetheeffectivenessofretrieval.ExperimentalresultsshowthatthistechniqueismoreadaptivetoWebsearching,andcanimprovetheprecisionofdocumentretrievalmarkedlycomparedwithconventionalones.Keywords:informationretrieval;queryexpansion;userlog;logmining摘要:信息检索长期存在着用词歧义性问题,在W
6、eb搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.关键词:信息检索;查询扩展;用户日志;日志挖掘中图法分类号:TP311文献标识码:A随着Web技术的巨大发展和日益普及,Internet越来越成为人们搜寻各方面信息的主要来源,搜索引擎也在∗Supported
7、bytheNationalNaturalScienceFoundationofChinaunderGrantNos.69974026,70171002(国家自然科学基金)第一作者简介:崔航(1977-),男,北京人,博士生,主要研究领域为查询扩展与优化,结构化文档检索与索引,基于Web的信息检索.1594JournalofSoftware软件学报2003,14(9)人们的日常生活和学习中发挥着无法替代的重要作用.然而,由于大量同义词和多义词的存在,用户在提交查询时使用的词往往不尽规范,与文档索引使用的词或词组有很大差别,这就给
8、现今基于关键词的查询系统带来巨大的困难,也成为长期困扰信息检索领域的基本问题.[1]Furnas第一个发现了这个所谓的“词典问题”(dictionaryproblem).他们的实验表明,通常情况下,两个人使用同样的关键词描述同一物体的几率小于20%.在当前的搜索引擎的使用过程