欢迎来到天天文库
浏览记录
ID:28205495
大小:17.58 KB
页数:4页
时间:2018-12-08
《基于隐式时间查询的文档排名方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于隐式时间查询的文档排名方法 摘要:时态信息检索是近年来的研究热点,很多解决方案是在检索模型中考虑时间相关性。提出一种支持隐式时间查询的文档排名方法,使用考虑内容相关性排名结果的前k个文档分析查询的时间意图,然后使用排名模型计算各个文档时间相关性得分。实验结果表明,在排名模型中引入时间因素有利于提升检索性能。 关键词:
2、隐式时间查询;时态信息检索;排名模型 DOIDOI:/ 中图分类号:TP301 文献标识码:A文章编号文章编号:1672--0012-03 0引言 搜索引擎是目前最受欢迎的获取信息方式之一,用户可以通过搜索引擎在海量信息中方便地检索到自己感兴趣的主题,研究人员发现大约%的查询包含明确的时间约束[1],超过7%的查询包含隐式时间意图[2]。因此,在检索模型中考虑时间因素,理解用户查询的潜在时间意图,有利于提升搜索引擎的检索性能。 1相关工作 时态信息检索为了充分发挥“教学点数字教育资源全
3、覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。[3]是信息检索的一个重要分支。查询某一个特定时间区间的文档称为时间敏感查询。显式时间敏感查询定义明确的时间约束,Berberich等[4]针对这类查询提出一个考虑时间因素的
4、检索模型,把从文档中提取的时间词汇添加到语言模型中计算概率。Diaz和Jones[5]提出使用文档的时间戳衡量检索结果文档在时间域上的分布,并创建一个查询时间配置文件。隐式时间敏感查询虽然没有提供明确的时间标准,但与查询相关的文档大都发生在特定时间区间。解决此问题的方法之一是基于元数据,利用文档发表日期等确定查询的时间意图。Kanhabua等[6]提出3种分析隐式时间查询意图的方法:①仅通过关键词分析时间意图;②使用仅考虑内容相关性排名结果的前k个文档分析时间意图;③通过前k个文档的时间戳分析查询的
5、时间意图。Dakka为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。等[7]在语言模型中加入时间因素,给每个时间段一个相关性评估分数,而有的文档可能没有可信的创建日期,且当文档时间意图和文
6、档创建时间相差很远时,这种通过文档创建日期分析查询时间意图的方法就不准确,可能降低检索质量。Lin等[8]建立了一个时态信息的检索模型TASE,此模型可以提取显式和隐式表示时间的词汇,计算网页与每个时间表达式之间的相关评分,基于网页和查询之间的时间相关性和文本相关性对检索结果重新排序。还有一种方法是基于用户的查询日志,如Metzler等[2]提出通过挖掘用户日志以及分析不同时间的查询频率来识别与时间关联较强的查询。张晓娟等[9]的研究也是基于查询日志,通过Sogou实验室提供的查询日志数据和新闻数据
7、分析潜在时间意图及其相关时间属性,构建潜在时间意图查询检索模型。 2方法 包含时间意图的查询主要有两种类型:①查询中明确指定了�r间约束,称为显式时间查询;②用户没有提供明确的时间标准,但与查询相关的结果都倾向于发生在某个特定的时间区间,称为隐式时间查询[6]。本文中,定义文档集C是所有文档的集合,C={d1,d2,d3,...,dn}。文档di是一系列单词的集合,di={w1,w2,w3,...,wm,t1,t2,t3,...,tn},其中wm是文档中没有时间含义的词汇,这些词汇的集合记作dw
8、ord;tn是文档中表达时间的词汇,这些词汇的集合记作dtime,di={dword,dtime}。支持隐式时间查询排名算法过程如下:①提交查询到已建立索引的文档集,得到仅考虑内容相关性的初始排名结果;②使用初始排名结果的前k个文档,分析查询的时间意图;③在考虑查询时间意图的基础上利用排名模型计算文档的时间相关性得分;④结合内容相关性得分和时间相关性得分对结果重排,最后把新的排名结果返回给用户。从以上工作流程可见,此算法主要有分析查询的时间意图和考虑时间因素的检索模型
此文档下载收益归作者所有