欢迎来到天天文库
浏览记录
ID:52359411
大小:202.13 KB
页数:3页
时间:2020-03-26
《搜索引擎网页排序算法研究综述.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、搜索引擎网页排序算法研究综述任丽芸杨武唐蓉(重庆理工大学计算机科学与工程学院,重庆400054)序技术在搜索引擎中有着重要作用,它在一定程度上决定了搜索引擎的质量。概括了网页排序算法,各种排序方法的基本思想和技术特点,并比较了它们的优缺点,最后指出了网页排序技术的发展思擎;网页排序;HITS;PageRank1.引言随着互联网的飞速发展,网络信息资源越来越庞大,通常情况下,用户检索到的结果成于上万,所以对于任何一个搜索引擎而言,都必须配备理想的网页排序算法。可以说,排序算法的好坏在一定程度上决定了搜索引擎的质
2、量。目前比较著名的排序算法有词频位置加权排序算法、DirectHit算法、PageRank算法、HITS算法、以及竞价排名服务等t”。2.词频位置加权排序算法词频位置加权排序算法【2】通过查询关键词在页面中出现的次数和位置对网页进行排序,它是计算机情报检索中最基础的排序算法。该算法的基本思想是,对于用户输入的搜索关键词,如果它在某网页中出现的频率越高,位置越重要,就认为该网页和关键词的相关性越好,也越能满足用户的需求。举例来说,假设搜索关键词出现在“网页主体body”中的权重为l,出现在“标题title”中的
3、权重为2,出现在“链接URL”中的权重为0.5,那么根据关键词出现的次数和位置加权求和,再进行一些辅助计算,就可以得到网页和关键词的相关性权值,这样就可以根据这一权值对查询结果进行排序。显然,这种排序算法具有思想简单、容易实现的优点,但它的缺点也很明显13】。因为关键词出现的频率和位置并不是决定排序结果的唯一要素,而该算法过于依赖关键词的重要性,无法保证页面的质量。例如,一些网页设计者在页面中罗列大量与主题无关但常被搜索的词,或者在页面的隐藏域中添加与该页面毫无关联的词,那么在搜索这些关键词时,不相关的页面也
4、会出现在搜索结果中。所以,随着搜索引擎技术的发展,词频位置加权排序算法只能辅助排序,而不能在搜索引擎网页排序中单独使用。3.DirectHit算法DirectHit算法【4】是一种注重信息质量和用户反馈的排序方法。它的基本思想是,搜索引擎将查询的结果返回给用户,并跟踪用户在检索结果中的点击。如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回点击其它的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性。另一方面,如果网页被用户点击打开进行浏览,并且浏览的时间较长,那么该网页的受欢迎
5、程度就高,相应地,系统将增加该网页的相关度。可以看出,在这种方法中,相关度在不停地变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也有可能不同,它是一种动态排序。该算法的优点是能够节省大量时间,因为用户阅读的是从搜索结果中筛选出来的更加符合要求的结果。同时,这种算法直接融入用户的反馈信息,能够保证页面的质量。然而,统计表明,DirectHit算法只适合于检索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和抽取,在检索数据库很大、关键词很多的时候,返回的搜索结果成千上万,用户不可能一一审阅
6、。因此,这种方式也不能作为主要的排序算法来使用,而是一种很好的辅助排序算法,目前在许多搜索引擎当中仍然在使用。4.PageRank算法斯坦福大学的LarryPage和SergeyBrin于1996年提出了PageRank算法[51。该算法基于这样的假设:如果一个页面被许多其它页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。设网页A有T"T2,⋯,Tn共11个网页指向它,参数d是O到l之间的控制
7、系数,通常为0.85,C(T;)是一个从网页A链出的网页数,则A的PageRank值由以下公式旧计算:PR(A)=(1曲+dx(PR(Tt))/C(T1)+⋯+PR(¨/C(¨通常情况下,设定每个网页的初始PageRank值为l,通过公式递归计算各网页的PageRank值,直到趋于稳定。由于其用户行为模型假设用户访问网络是完全随机的,因此一个页面的PageRank值被平分给了其所指向的页面,由公式中的项PR(T;)/C(T;)可以明显地看出其平分策略。举个例子,设有四个网页A、B、C、D,它们之间互相链作者简
8、介:任丽芸,女,山西沁源人,硕士研究生,研究方向:信息检索。一38—接,如图l所示。图l网页链接圈那么,如果网页A的Page,Rank为6,它有两个出链接,则每个链接的PR为3,即分配给网页B和D各3个单位PR:同理,网页C的PageRank为12,它有三个出链接,则每个链接的PR为4。则统计后,网页B、D的PageRank值(为方便计算,取d为1)见表l:表1网页PageRank值的基本计算PRf
此文档下载收益归作者所有