欢迎来到天天文库
浏览记录
ID:26880760
大小:512.00 KB
页数:19页
时间:2018-11-29
《个性化web信息检索排序算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、...个性化web信息检索排序算法成家乐(湖北第二师范学院计算机科学与技术)摘要:本文主要分别论述了基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法第一章引言随着社会的进步,科学的发展。互联网成为了社会生活的重要部分。这也使得Web上信息量讯速膨胀。随着Web上信息量的快速膨胀,互联网的信息检索平台,比如搜索引擎(Baidu,Google等),在得到广泛应用的同时也面临着许多困难。首先对于同样的查询关键词,不同的用户可能会有完全不同的信息要求。只要用户输入的查询关键词是一样的,搜索引
2、擎对所有的用户返回同样的查询结果。其次用户的信息需求也会随着时间发生变化。现有的搜索引擎也没有处理用户需求的改变的情况。Web信息检索排序技术是搜索引擎最为核心和关键的技术之一,也是当前搜索引擎亟待进一步研究和完善的问题之一.由于现有搜索引擎排序算法的设计不尽合理,使得许多用户真正感兴趣的结果淹没在搜索引擎数量众多的查询结果之中,降低了搜索引擎的使用效率,浪费了用户的时间,进而影响了用户对搜索引擎的满意度.自20世纪90年代中期以来,人们在传统信息检索排序技术的基础上,结合Web信息检索的自身特性,提出了许多Web页面检
3、索排序算法,主要分为3类:基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法第二章基于Web页面内容的排序算法传统的搜索引擎在进行网页的页面排序时候只考虑用户输入的关键词和页面的相关度这一个因素,搜索结果按照关键词和页面的相关度排列然后返回给用户。1.1Web页面内容的排序算法基于Web页面内容的排序算法,主要源自传统信息检索中常用的文本文档加权标引算法,其基本思想是通过计算Web页面中与查询关键词相匹配的索引项,对Web页面主题内容的表征程度进行排序.基于Web页面内容的排序算法非常
4、丰富,其中以基于词频和位置的加权排序算法应用最为广泛,有些算法尽管可以获得更好的排序效果,但往往由于分析处理过于复杂而不能满足海量Web信息检索快速响应的需要.......在基于词频排序的算法中,一般会考虑2个因素来度量索引项对该文档主题内容的表征程度:词在文档中出现的频次越高,则这个词越重要,应给以更高的权重,即词频因子;包含该索引项的Web页面数越多,则这个索引项越不重要,即逆文档频率因子.在此基础上,为了消除不同Web页面长度对索引项出现频次统计的影响,通常还会进一步引入规范化因子.记词频因子、逆文档频率因子、规范
5、化因子分别为web_tf,web—idf,norm,Web页面集合为D={dl,d2,…,dn},其索引项集合为T={tl,t2,…,tm},ti在dj中出现的频次和权重分别为tfij和wij,ti在整个集合D中出现的频次为fi,D中包含ti的Web页面数量为dfi,dj包含的不同索引项个数为lj,dj的文档长度为charLength.应用权重分配模式,基于词频的加权排序函数可以表示为Score(q,dj)==, (1)表1Web页面中索引项的权重分配模式词频因子web_tf逆文档频率因子web_idf规范化因子no
6、rm代码取值代码取值代码取值b1或0n1.0n1.0ntfijtlogca0.5+0.5plogul1+logtfijgba<1Lh1+其中web_tfij,web_idfj和normj的常见取值参见表1。根据表1,可以组合出多种基于词频的加权算法,如“ntn”组合就是著名的TF—IDF公式.另外,基于词频的BM25加权算法在概率检索排序中也有良好的表现.Web页面的题目(title)、标题(H1一H6)、强调的文本(strong)、首尾段落、段落的首尾句以及人链锚文本等区域出现的索引项通常更能表征Web页面的主题内容,
7、因此,在检索排序过程中,通常会在排序函数中引入位置信息或者适当调高词频因子web_idf的权重。Google,Baidu等搜索引擎在检索排序过程中都十分重视索引项在Web页面中所处的位置.另外,Web页面各索引项间的邻近距离的远近,在一定程度上揭示了这些索引项联合表达某一主题的准确程度,因而在多关键词检索排序过程中还会适度考虑词间邻近距离.......基于词频和位置的排序算法简单易用,具有一定的合理性,经传统文本信息检索实践证明是较为客观准确的,为当前各大搜索引擎普遍采用.但是基于词频的排序算法并没有考虑不同文档质量上的
8、差异,就海量的Web信息资源而言,Web页面质量参差不齐,同一内容经常被多个页面转贴复制,使得许多权威的、高质量的Web页面被淹没其中.另外,由于自然语言的丰富性和写作上的需要,同义词、近义词在文档中被大量使用,基于词频的排序算法只是通过查询关键词在文档及文档集中出现的频次来表征文档主题内容,而不是真正从语义上分析文
此文档下载收益归作者所有