基于用户日志的查询扩展统计模型

基于用户日志的查询扩展统计模型

ID:33326967

大小:448.32 KB

页数:7页

时间:2019-02-24

基于用户日志的查询扩展统计模型_第1页
基于用户日志的查询扩展统计模型_第2页
基于用户日志的查询扩展统计模型_第3页
基于用户日志的查询扩展统计模型_第4页
基于用户日志的查询扩展统计模型_第5页
资源描述:

《基于用户日志的查询扩展统计模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2003/14(09)1593©2003JournalofSoftware软件学报Vol.14,No.9∗基于用户日志的查询扩展统计模型121+崔航,文继荣,李敏强1(天津大学系统工程研究所,天津300072)2(微软亚洲研究院,北京100080)AStatisticalQueryExpansionModelBasedonQueryLogs121+CUIHang,WENJi-Rong,LIMin-Qiang1(InstituteofSystemsEngineering,TianjinUniversity,T

2、ianjin300072,China)2(MicrosoftResearchAsia,Beijing100080,China)+Correspondingauthor:Fax:86-22-27404796,E-mail:mqli@tju.edu.cnhttp://www.tju.edu.cnReceived2002-03-12;Accepted2002-08-13CuiH,WenJR,LiMQ.AstatisticalqueryexpansionmodelbasedonqueryLogs.JournalofSoftware,2

3、003,14(9):1593~1599.http://www.jos.org.cn/1000-9825/14/1593.htmAbstract:Ambiguityofquerytermshasbeenalong-standingproblemininformationretrievalfield,whichbecomesmoreseriousinWebsearching.Amethodforautomaticqueryexpansionbasedonquerylogsobtainedfromusers’dailyusageis

4、suggested.Thismodelestablishesprobabilisticrelationshipbetweentermsindocumentsandinuserqueriesthroughstatisticallearningfromthelog,andselectshigh-relatedexpansiontermsbasedonBayesiantheory.Theseexpansiontermsareaddedintotheoriginalquerytoformulateanewoneinordertoimp

5、rovetheeffectivenessofretrieval.ExperimentalresultsshowthatthistechniqueismoreadaptivetoWebsearching,andcanimprovetheprecisionofdocumentretrievalmarkedlycomparedwithconventionalones.Keywords:informationretrieval;queryexpansion;userlog;logmining摘要:信息检索长期存在着用词歧义性问题,在W

6、eb搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.关键词:信息检索;查询扩展;用户日志;日志挖掘中图法分类号:TP311文献标识码:A随着Web技术的巨大发展和日益普及,Internet越来越成为人们搜寻各方面信息的主要来源,搜索引擎也在∗Supported

7、bytheNationalNaturalScienceFoundationofChinaunderGrantNos.69974026,70171002(国家自然科学基金)第一作者简介:崔航(1977-),男,北京人,博士生,主要研究领域为查询扩展与优化,结构化文档检索与索引,基于Web的信息检索.1594JournalofSoftware软件学报2003,14(9)人们的日常生活和学习中发挥着无法替代的重要作用.然而,由于大量同义词和多义词的存在,用户在提交查询时使用的词往往不尽规范,与文档索引使用的词或词组有很大差别,这就给

8、现今基于关键词的查询系统带来巨大的困难,也成为长期困扰信息检索领域的基本问题.[1]Furnas第一个发现了这个所谓的“词典问题”(dictionaryproblem).他们的实验表明,通常情况下,两个人使用同样的关键词描述同一物体的几率小于20%.在当前的搜索引擎的使用过程

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。