基于日志与知网查询推荐探究

基于日志与知网查询推荐探究

ID:5997017

大小:33.00 KB

页数:10页

时间:2017-12-30

基于日志与知网查询推荐探究_第1页
基于日志与知网查询推荐探究_第2页
基于日志与知网查询推荐探究_第3页
基于日志与知网查询推荐探究_第4页
基于日志与知网查询推荐探究_第5页
资源描述:

《基于日志与知网查询推荐探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于日志与知网查询推荐探究  〔摘要〕考虑到传统的基于日志的查询推荐算法受到数据稀疏问题的影响,本文在分析查询日志的基础上,构建查询词与点击URL之间的双向图,计算查询词与候选词之间的相似度。然后基于知网计算查询词与候选词之间的相似度,考虑词性和同义词因素对相似度的影响。最后将两个相似度分别赋予权重计算查询词与推荐词的相关度。实验结果表明,该方法不易受数据稀疏问题的影响,稳定性较好。〔关键词〕查询日志;查询推荐;双向图DOI:10.3969/j.issn.1008-0821.2013.10.015〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821(2013)

2、10-0065-0510随着互联网和基础设施的快速发展,搜索引擎已成为人们获取信息的重要来源。根据中国互联网络信息中心2012年7月19日发布的《第30次中国互联网络发展状况统计报告》中显示[1],截至2012年6月底,中国网民数量达到5.38亿,搜索引擎的使用率为79.7%。有学者研究表明,用户输入的查询通常只有两三个词[2],并且对所要检索的内容知之甚少,所以用户很难明确的表达自己的查询意图。查询推荐技术是向用户推荐若干个与用户输入相关的查询,能帮助用户生成更加符合其搜索意图的查询推荐词,引导用户的搜索行为,优化搜索结果。本文在已有的查询推荐研究基础上,从两个方面对查询词和候选

3、词进行相似度计算。文章的结构如下:第一节介绍查询推荐相关研究现状;第二节分别基于双向图和知网计算查询词和候选词的相似度;第三节介绍整个查询推荐算法的流程;第四节进行实验验证和评价;第五节做总结分析。1相关研究早在上世纪90年代,信息检索研究者就开展了一些查询推荐相关研究[3],查询推荐技术在检索和浏览过程中的确能提高检索的质量和效率。根据所依赖的数据源大致可以分为两大类:一是基于文档的推荐方法;二是基于用户查询日志的推荐方法[4]。基于文档的推荐方法主要通过处理包含查询词的文档来分析查询,从查询相关文档或人工编辑语料中找出与查询词相关的词或短语,然后利用这些相关词或短语构建推荐查询

4、。有学者利用查询相关文档扩充查询以解决查询短的问题[5],也有学者利用伪相关文档检索查询相关词[6]。10基于日志的方法依靠分析搜索引擎查询日志来寻找出现过的相似查询,并根据一定算法排序后择优推荐给用户。查询日志中记录了用户完整的搜索点击行为,基于查询日志的推荐方法逐渐成为近年来常用的方法。有学者认为在同一session内出现的查询有可能语义相近,利用相关的相似度算法来度量查询间的相关性[7]。有学者提出一种基于查询共有相同点击URL数的查询推荐方法[8],在此基础上,有学者基于查询点击双向图提出了改进的SimRank相似度算法度量查询相关性[9-10]。有学者基于一个大规模商业搜

5、索引擎查询日志,利用查询数据内在的全局流行度来获得查询之间的相关性,并提出了一种基于流行度排序的查询推荐方法[11]。也有学者研究查询日志中用户ID与点击URL之间的联系,提出基于主题与用户偏好分析的查询推荐方法[12]。基于日志的方法根据搜索历史推荐查询词,相对于基于文档的方法更符合用户查询特点。但是查询词在日志中的出现频率呈指数分布,大多数查询词在日志中出现次数不多,这使得基于日志的方法面临严重的数据稀疏问题。考虑到日志中数据稀疏问题,本文将从两个方面对查询词和候选词进行相似度计算。首先基于构建的双向图计算查询词与候选词之间的相似度,然后利用中科院的分词系统对查询词进行分词处理

6、,基于知网计算查询词与候选词的相似度,最终得到查询词与候选词的相关度,相关度满足条件的候选词即为推荐词。2基于日志和知网的查询推荐算法2.1基于双向图的相似度计算10查询日志的丰富与否直接影响候选查询集合的质量,因此要获得较好推荐的效果必须有丰富的查询日志。这里我们采用搜狗搜索引擎公开的查询日志库。日志的基本格式如表1:表1查询日志基本格式如表1所示,每一条检索记录由访问时间(t),用户ID(u),查询词(q),用户点击的URL(l),该URL在返回结果中的排名(r)和该URL点击的顺序组成(o)。因此,一条检索记录可由〈t,u,q,l,r,o〉表示。在这里我们只考虑查询词和用户点

7、击的URL两个因素,利用〈q,l〉构造查询词和点击URL的双向图。其中,查询词集合Q={q1,q2…qn}表示日志中出现过的查询词的集合,URL集合L={l1,l2…ln}表示日志中用户点击过的URL的集合。查询词结点qi到URL结点urlj的边eij由某一查询词节点出发到某一URL节点结束,表示用户输入该查询进行检索并在返回的结果中点击了相应的URL。边的权重wij是查询日志中eij出现的次数,一定程度反映了节点对之间的关联程度。边的集合E={eijqi∈Q,url

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。