web信息检索排序算法研究

web信息检索排序算法研究

ID:34107231

大小:587.61 KB

页数:10页

时间:2019-03-03

web信息检索排序算法研究_第1页
web信息检索排序算法研究_第2页
web信息检索排序算法研究_第3页
web信息检索排序算法研究_第4页
web信息检索排序算法研究_第5页
资源描述:

《web信息检索排序算法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第27卷第1期海南大学学报自然科学版2009年3月NATURALSCIENCEJOURNALOFHAINANUNIVERSITYV01.27No.1MaL2009文章编号:1004—1729(2009)01—0078—06Web信息检索排序算法研究张春元,康耀红,伍小芹(海南大学信息科学技术学院,海南海口570228)摘要:系统地研究了Web信息检索常用排序算法,即基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法,并对其优缺点进行了分析.在此基础上,对Web信息检索排序

2、算法的发展趋势进行了展望.关键词:web信息检索;网页排序算法;展望中图分类号:TP393.09文献标识码:AWeb信息检索排序技术是搜索引擎最为核心和关键的技术之一,也是当前搜索引擎亟待进一步研究和完善的问题之一.2006年1月Keynote公司就中国搜索引擎用户所不满意的因素调查表明⋯:有50%的用户对搜索结果重复表示不满,认为搜索结果排序欠佳、搜索结果太杂乱、搜索结果不合时宜,广告过多的用户比例分别为43%,37%,36%和35%.正是由于现有搜索引擎排序算法的设计不尽合理,使得许多用户真正感兴趣的结果淹没在

3、搜索引擎数量众多的查询结果之中,降低了搜索引擎的使用效率,浪费了用户的时间,进而影响了用户对搜索引擎的满意度.自20世纪90年代中期以来,人们在传统信息检索排序技术的基础上,结合Web信息检索的自身特性,提出了许多Web页面检索排序算法,主要分为3类:基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法.在实际应用中,搜索引擎通常会综合运用以上各类算法对查询结果进行排序.除此之外,有的搜索弓l擎检索排序时还会进一步参考人工编辑的目录系统的收录情况,或者出于自身商业利益的考虑,按关键

4、词付费的多少进行排序.对于这类通过人工间接或直接干预查询结果排序的方法本文不作探讨.1基于Web页面内容排序基于Web页面内容的排序算法,主要源自传统信息检索中常用的文本文档加权标引算法,其基本思想是通过计算Web页面中与查询关键词相匹配的索引项,对Web页面主题内容的表征程度进行排序.基于Web页面内容的排序算法非常丰富,其中以基于词频和位置的加权排序算法应用最为广泛,有些算法尽管可以获得更好的排序效果,但往往由于分析处理过于复杂而不能满足海量Web信息检索快速响应的需要.在基于词频排序的算法中,一般会考虑2个因

5、素来度量索引项对该文档主题内容的表征程度:词在文档中出现的频次越高,则这个词越重要,应给以更高的权重,即词频因子;包含该索引项的Web页面数越多,则这个索引项越不重要,即逆文档频率因子.在此基础上,为了消除不同Web页面长度对索引项出现频次统计的影响,通常还会进一步引入规范化因子.记词频因子、逆文档频率因子、规范化因子分别为web_tf,web—idf,norm,Web页面集合为D=tdl,如,⋯,dⅣ},其索引项集合为T={tl,t2,⋯,t。},t;在dj中出现的频次和权重分别为阢f和埘4,ti在整个集合D中出

6、现的频次为Z,D中包含t;的Web页面数量为娥,d,包含的不同索引项个数为Z,,d,的文档长度为charLength.应用权重分配模式旧圳,基于词频的加权排序收稿日期:2008—06—19基金项目:海南省自然科学基金项目(80638)作者简介:张春元(1973一),男,湖北武汉人,海南大学信息学院讲师,硕士.万方数据第l期张春元等:Web信息检索排序算法研究函数可以表示为Score(q,嘭)=∑WF=∑(1t,e6珥×l,oeb_idfiXnormj),(1)‘,'6qndi眯qn吩其中web_E,,web_idf

7、和,lD_的常见取值参见表1.根据表1,可以组合出多种基于词频的加权算法,如“ntn”组合就是著名的TF—IDF[4,61公式.另外,基于词频的BM25[7-s]加权算法在概率检索排序中也有良好的表现..表1Web页面中索引项的权重分配模式Web页面的题目(title)、标题(H1一H6)、强调的文本(strong)、首尾段落、段落的首尾句以及人链锚文本等区域出现的索引项通常更能表征Web页面的主题内容,因此,在检索排序过程中,通常会在排序函数中引入位置信息或者适当调高词频因子web—idf的权重.文献[9一14]

8、对索引页位于Web页面不同位置的主题表达能力及加权策略进行了研究,Google,Baidu等搜索引擎在检索排序过程中都十分重视索引项在Web页面中所处的位置.另外,Web页面各索引项间的邻近距离的远近,在一定程度上揭示了这些索引项联合表达某一主题的准确程度,因而在多关键词检索排序过程中还会适度考虑词间邻近距离.基于词频和位置的排序算法简单易用,具有一定的合理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。