搜索日志中领域查询串识别研究.pdf

搜索日志中领域查询串识别研究.pdf

ID:56058678

大小:382.36 KB

页数:6页

时间:2020-06-20

搜索日志中领域查询串识别研究.pdf_第1页
搜索日志中领域查询串识别研究.pdf_第2页
搜索日志中领域查询串识别研究.pdf_第3页
搜索日志中领域查询串识别研究.pdf_第4页
搜索日志中领域查询串识别研究.pdf_第5页
资源描述:

《搜索日志中领域查询串识别研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年5月计算机工程与设计May.2014第35卷第5期COMPUTERENGINEERINGANDDESIGNVo1.35No.5搜索日志中领域查询串识别研究唐静笑,吕学强,柳成洋。,李涵。(1.北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101;2.中国标准化研究院现代服务标准化发展研究中心,北京100101)摘要:利用搜索日志中查询串自身信息和用户点击信息,提出了双层模型识别领域查询串的方法。第一层模型采用贝叶斯法则和词典相结合的方法对查询串进行识别;针对搜索日志查询串内容简短、信息量少的特点,提出基于域名可信度的第二层ix~,l模型。在搜狗2012版用

2、户查询日志上对双层模型进行了开放测试,召回率和准确率分别达到了85.2和94.6,实验结果表明了该方法的有效性。关键词:查询串;双层模型;贝叶斯;领域词典;域名可信度中图法分类号:TP391.1文献标识号:A文章编号:1000—7024(2014)051766—06DomainqueryrecognitioninsearchlogsTANGJing-xiao,LUXue-qiang,LIUCheng-yang。,LIHan(1.BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingIn

3、formationScienceandTechnologyUniversity,Beijingi00101,China;2.ModernServiceStandardizationDevelopmentResearchCenter,ChinaNationalInstituteofStandardization,Beijing100101,China)Abstract:Abi-levelmodelidentificationmethodisproposedtoidentifydomainqueriesbasedontheinformationofqueryitselfanduserc

4、lickingbehaviorinsearchlog.ThefirstlevelincorporatesdictionarymatchingandBayestheoremtoidentifythequeries;withregardtothefeaturesofshortandlessinformation,thesecondlevelbasedondomainnamecredibilityispresented.TheopentestisdoneonSogouuserquerylog2012edition,whoseresultsshowthattherecallandpreci

5、sionachieve85.2and94.6respectively.ThemethodiSprovedtobeeffective.Keywords:querystring;bblevelmodel;Bayestheorem;domaindictionary;domainnamecredibility的查询,这在一定程度上弥补了用户查询信息不足的缺陷。0引言现有的研究主要是利用搜索结果中的文本信息(如标题,领域查询串指一些频繁在该领域出现的,能够反映某摘要和网页正文等)对查询串所属领域类别进行识别,需一领域共性特征的查询串集合。查询领域识别与传统的文要在线对文本进行分析和处理,存储

6、这些数据带来了大量档或网页分类类似,但处理的对象是用户提交的关键词查的负担,可行性低。因此,本文通过分析搜索日志中查询询。用户输入的关键词能够直接反映用户的搜索目的,但串自身和对应URL信息,并将词典和统计相结合,构建了是查询长度较短,缺少上下文特征,很大比例的查询具有双层识别模型识别领域查询串。歧义。因此,如何自动对查询串进行领域识别是当前搜索1相关工作引擎面临的新挑战,从用户方面角度讲,领域识别反应了用户的某种需求,比如用户想导航到某个网站,或者想了搜索日志中查询串有如下特点:简短、特征稀少、信解某类知识等;从搜索引擎的角度讲,领域识别能够对用息逻辑丢失,根据这些特点国外学者利

7、用已知类别的查询户查询词进行扩充,找到相关词,从而组成新的、更准确推导新查询的类别,如LiE使用二维图(bipartitegraph)收稿日期:2013—0904;修订日期:2013一ll一12基金项目:国家自然科学基金项目(61171159、61271304);北京市教委科技发展计划重点基金项目暨北京市自然科学基金B类重点基金项目(KZ201311232037)作者简介:唐静笑(1988一),女,辽宁沈阳人,硕士研究生,CCF会员,研究方向为中文信息处理;吕学强(1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。