基于用户日志的查询扩展统计模型

基于用户日志的查询扩展统计模型

ID:1145832

大小:448.32 KB

页数:7页

时间:2017-11-08

基于用户日志的查询扩展统计模型_第1页
基于用户日志的查询扩展统计模型_第2页
基于用户日志的查询扩展统计模型_第3页
基于用户日志的查询扩展统计模型_第4页
基于用户日志的查询扩展统计模型_第5页
资源描述:

《基于用户日志的查询扩展统计模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1000-9825/2003/14(09)1593©2003JournalofSoftware软件学报Vol.14,No.9∗基于用户日志的查询扩展统计模型121+崔航,文继荣,李敏强1(天津大学系统工程研究所,天津300072)2(微软亚洲研究院,北京100080)AStatisticalQueryExpansionModelBasedonQueryLogs121+CUIHang,WENJi-Rong,LIMin-Qiang1(InstituteofSystemsEngineering,TianjinUniversity,Tianjin3000

2、72,China)2(MicrosoftResearchAsia,Beijing100080,China)+Correspondingauthor:Fax:86-22-27404796,E-mail:mqli@tju.edu.cnhttp://www.tju.edu.cnReceived2002-03-12;Accepted2002-08-13CuiH,WenJR,LiMQ.AstatisticalqueryexpansionmodelbasedonqueryLogs.JournalofSoftware,2003,14(9):1593~1599.

3、http://www.jos.org.cn/1000-9825/14/1593.htmAbstract:Ambiguityofquerytermshasbeenalong-standingproblemininformationretrievalfield,whichbecomesmoreseriousinWebsearching.Amethodforautomaticqueryexpansionbasedonquerylogsobtainedfromusers’dailyusageissuggested.Thismodelestablishes

4、probabilisticrelationshipbetweentermsindocumentsandinuserqueriesthroughstatisticallearningfromthelog,andselectshigh-relatedexpansiontermsbasedonBayesiantheory.Theseexpansiontermsareaddedintotheoriginalquerytoformulateanewoneinordertoimprovetheeffectivenessofretrieval.Experime

5、ntalresultsshowthatthistechniqueismoreadaptivetoWebsearching,andcanimprovetheprecisionofdocumentretrievalmarkedlycomparedwithconventionalones.Keywords:informationretrieval;queryexpansion;userlog;logmining摘要:信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与

6、文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.关键词:信息检索;查询扩展;用户日志;日志挖掘中图法分类号:TP311文献标识码:A随着Web技术的巨大发展和日益普及,Internet越来越成为人们搜寻各方面信息的主要来源,搜索引擎也在∗SupportedbytheNationalNaturalScienceFoundationofChinaunderGrantNos.69

7、974026,70171002(国家自然科学基金)第一作者简介:崔航(1977-),男,北京人,博士生,主要研究领域为查询扩展与优化,结构化文档检索与索引,基于Web的信息检索.1594JournalofSoftware软件学报2003,14(9)人们的日常生活和学习中发挥着无法替代的重要作用.然而,由于大量同义词和多义词的存在,用户在提交查询时使用的词往往不尽规范,与文档索引使用的词或词组有很大差别,这就给现今基于关键词的查询系统带来巨大的困难,也成为长期困扰信息检索领域的基本问题.[1]Furnas第一个发现了这个所谓的“词典问题”(dict

8、ionaryproblem).他们的实验表明,通常情况下,两个人使用同样的关键词描述同一物体的几率小于20%.在当前的搜索引擎的使用过程

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。