搜索日志中查询分类与优化

搜索日志中查询分类与优化

ID:33788981

大小:3.03 MB

页数:60页

时间:2019-02-27

搜索日志中查询分类与优化_第1页
搜索日志中查询分类与优化_第2页
搜索日志中查询分类与优化_第3页
搜索日志中查询分类与优化_第4页
搜索日志中查询分类与优化_第5页
资源描述:

《搜索日志中查询分类与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号:TP391@单位代码:11232密级:◆f京信息科技太伊工学硕士学位论文搜索日志中查询分类与优化学院:学科(专业):学号:作者:指导教师:完成日期:计算机学院计算机应用技术2012020214李煜施水才教授二。一四年十二月二十六日万方数据学位论文版权使用授权书本人完全了解北京信息科技大学关于收集、保存、使用学位论文的规定,按照学校要求提交学位论文的印刷本和电子版本。学校有权保留学位论文并向中国科学技术信息研究所等国家主管部门或其指定机构送交论文的电子版和纸质版,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。学校有权适当复

2、制、公布论文的全部或部分内容。学校有权将本人的学位论文加入《中国优秀硕士学位论文全文数据库》和编入《中国知识资源总库》。学位论文作者签名:.,毒湿秒侈年1月;。日口公开口保密(——年——月)(保密的学位论文在解密后应遵守此协议)指导教师签名:学位论文作者签名:年月日年月日万方数据硕士学位论文原创性声明本人郑重声明:所呈交的论文题目为《搜索日志中查询分类与优化》学位论文,是本人在导师指导下,进行研究工作所取得的成果。尽我所知,除了文中特别加以标注的内容外,本学位论文的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献

3、的其他个人和集体,均己在文中以明确方式标明并表示了谢意。本学位论文原创性声明的法律责任由本人承担。作者签字:易崖.沙侈年f月弓。日万方数据摘要随着互联网技术的飞速发展,越来越多网络用户通过搜索引擎从互联网上获取信息。用户提交的查询串体现着用户的查询需求,是用户与搜索引擎的重要沟通桥梁。因此,对于搜索引擎来说,准确理解用户提交的查询串,返回令用户更加满意的结果,是提高搜索引擎质量的必要条件。搜索日志记录了用户从互联网获取信息的全部过程,能真实地反映用户检索行为,是挖掘用户需求的一种有效资源。所以,通过分析用户搜索日志,更好地理解用户的查询需求是当前的一个研究热点。本文

4、通过对搜索日志进行研究,提出了三种方法,分别对用户查询串进行意图分类和主题分类,并结合句法分析,对用户查询串进行查询优化,以此来提高搜索引擎质量,提高用户满意度。1)提出一种基于用户行为分析的查询意图识别方法。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;同时,导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出“不同页面点击数”、“点击分布值”和“异源页面点击数”三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图

5、识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。2)提出一种基于伪相关反馈的查询主题分类方法。利用搜索引擎伪相关反馈技术,得到查询串扩展文本,通过分析抽取的扩展文本特征,定义部分匹配规则对其量化,形成空间向量;结合文本向量特征,给予抽取的特征相应的影响因子,提出一种向量空间压缩算法,对特征进行融合,形成压缩后的空间向量,并分别利用向量余弦夹角和SVM模型对其进行分类,以验证所提方法的有效性。实验结果中准确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。3)提出一种结合句法分析的查询优

6、化策略。利用哈工大LTP句法分析器,对查询串进行句法分析,统计查询串词性规则,找出查询串焦点,并利用搜索引擎高级检索功能对查询串进行改写。实验结果表明,经过优化后导航类P@5达到0.45,MAP值由0.38提高到0.45,MRR值从0.62提升到0.67,信息事务类查询串信息事务类的P@10达到0。4,MRR值从0.23增加到0.32。证实-:N用该方法的有效性。关键词:搜索日志;用户行为分析;查询意图分类;查询主题分类;查询优化万方数据ABSTRACTWiththerapiddevelopmentofInternettechnology,moreandmoreIn

7、temetusersobtaininformationfromtheInternetusingthesearchengine.Thequeriessubmittedbyusers,whichreflecttheuser’squeryneedsareanimportantbridgebetweenusersandthesearchengines.Forsearchengines,howtounderstandthequerysubmittedbyusersaccuratelyandreturningamoresatisfactoryresultareanecess

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。