基于页面时间相关度算法信息检索探究

基于页面时间相关度算法信息检索探究

ID:5942449

大小:25.00 KB

页数:4页

时间:2017-12-29

基于页面时间相关度算法信息检索探究_第1页
基于页面时间相关度算法信息检索探究_第2页
基于页面时间相关度算法信息检索探究_第3页
基于页面时间相关度算法信息检索探究_第4页
资源描述:

《基于页面时间相关度算法信息检索探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于页面时间相关度算法信息检索探究  摘要:检索的目标是全面而准确的信息,用户关心的是在海量数据中快速地查到合适的信息。为了使用户更快地得到满意的结果,本文提出了在传统相关度算法的基础上增加页面时间因素思想的页面时间相关度算法,使得检索结果在查准率方面有了较大的提高。关键词:相关性;页面时间相关度算法1引言当前,我们在检索的时候往往不能更快地找到合适的数据。根据iProspect的调查报告,90%的用户只点击搜索结果页的前3页里的结果,多数网民表达了对搜索引擎结果中冗余信息多的不满。这说明:用户对搜索引擎的要求越来越高,他们希望花在

2、寻找结果上的时间越来越少。因此,排序查找到的结果比搜索本身更为重要,研究搜索引擎的排序算法的改进,逐渐成为热点问题,越来越多的人意识到排序质量不令人满意的原因:不是网页提供给的信息太少,而是可用的信息太少,或所用信息不恰当[1]。4如何解决非应答或无应答网页的问题,就是排序算法所应关注的重要问题。排序所查找到结果的相关度算法就是希望能够帮助用户更快捷准确的找到更符合目标的网页,以达到更好的查准率。本文提出了通过在传统网页相关度算法的基础上增加页面时间因素的思想,解决了无应答和非应答页面的问题,经过实验提高了查准率。2传统排序算法的局

3、限性2.1传统网页的相关性排序原则传统的信息检索大多是基于全文检索的,其相关性都是基于词频统计的。即用户输入检索词句时,搜索引擎就会去找那些检索词所在的网页[2]。这样的排序算法的有很大的局限性表现为:首先,检索词的匹配不一定就是查找到准确文档的保证。其次,每个用户人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量可能相差很远[2]。2.2基于提问式的非应答或无应答式网页所谓基于提问式的非应答或无应答网页,就是针对某些问题用户在某些论坛或者网站上输入问题,但是没有合适的答案或没有回答的情况。而我们在检索时,也常常发生这样

4、的情状况:因为输入的查询词句和网页中提问的问题的匹配,这些提问应答式网页的排序就比较靠前,但是,很多这样的网页都是非应答或无应答网页。2.3用户反馈的问题在资源选择模块中加入日志信息、反馈机制,充分利用用户反馈信息能够提高信息检索性[3]。本文提出了一种基于页面时间的相关度排序算4法,解决了基于提问式的非应答或无应答网页的问题,弥补了用户反馈的问题。通过分析和实验可以看出此种方法不仅具有实用性和可行性,也使得排序结果具有更加优良的排序质量。同时,这种算法是在按照传统排序算法上增加页面时间的思想而提出的,可以方便地被移植。3页面时间算

5、法3.1算法的思想页面时间算法的主要思想就是:有用的网页会比无用的网页的生存期长。先对待计算数据给出如下定义:定义1对于一个用户检索时,确定搜索引擎抓取到的所有网页集合S,对于S中的任何一个网页用Ri表示。定义2用户需要检索的目标网页集合G,G中网页的个数用小写字母N表示,如果没有用户特别指定,默认N值为10,这这是因为一般一个检索页面检索到的网页为10个,而根据调查显示,越来越多的用户只点击搜索结果页的第1页里的结果。G是S的子集。定义3用户打开网页的个数,用小写字母n表示,nN。定义4当用户打开一个页面时,记录两个时间:打开页面

6、的时间,用tstart表示;关闭页面的时间,用tend表示。定义5网页从打开到关闭所花费的时间称为页面的生存期,用带下标的小写字母t表示,ti表示第i个页面的生存期。4算法的主要实现步骤为:步骤1用户输入关键词句检索时,确定检索到的所有网页集合S和用户想要检索的网页集合G。即确定G的个数N,如果用户没有特殊说明,N的值默认为10。步骤2对于打开的n个网页,nNfor(04

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。