一种基于内容引用的搜索引擎排序算法

一种基于内容引用的搜索引擎排序算法

ID:34570915

大小:782.88 KB

页数:10页

时间:2019-03-08

一种基于内容引用的搜索引擎排序算法_第1页
一种基于内容引用的搜索引擎排序算法_第2页
一种基于内容引用的搜索引擎排序算法_第3页
一种基于内容引用的搜索引擎排序算法_第4页
一种基于内容引用的搜索引擎排序算法_第5页
资源描述:

《一种基于内容引用的搜索引擎排序算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、a:,Re琅nk一种基于内容引用的搜索引擎排序算法,高尚周强,,清华大学信息与技术研究院语音与语言技术中心北京100084,,清华信息科学技术国家实验室技术创新与开发部语音和语言技术中心北京10084.·Email:engasosong@gIn苗Icom摘:,要本文介绍了一种搜索引擎根据搜索结果网页中的相互引用现象对其进行排序将包含较多与查询相关信息的网页放在前面的算法。本方法认为在网络上传播越广泛的信息越重要、越有效。本方法通过查找网页集合中相互引用的部分,给予包含大t引用的网页较高排名。本方法应用于对包含具体信息为主的,网页如百科知识的搜

2、索解决了传统的基于超链接分析的网页搜索结果排序算法中由于超链接相对缺失造成的排序不完替问题,能够取得较好的效果.:k关健词RefRan搜索引擎排序算法引用RefRank:AContent一Referenee一BasedRank1ngAlgorithmforSearehEngine,GAOSongZHOUiangQ,,Centerfors沐eehandLanguageTeehnologiesRese峨hInstitueoflnformationTeehnologyTsinghuanversieng,Uity,Bijil(X)084en征rree

3、uaenoes,vsonoeooovationeveoennghuaCfoSpehandLanggTechlogiDiiifTehol盯InandDlPm仁Tsi,NalionalLaboratoryforInformationSeieneeandTeehnology,Beijing100084E一mail:eng里幻songgmail.co@mAbstet:ThisrProsedakingaPProaehtoimProvebsehresultsPutingdumentsontoPraPapeporanwearcbyocwhiehaetely

4、descri比euesnatve.eaaesumeatenatonrankscurathqrywordand眠iformiThPProhasdththiformiwhiehsamorewidelyontheweb15mo爬imrtantective.eaPProaehfounderefereneesonPredspoandfeThth代lativeweb钾罗s,thengavepageswithmo比refereneehierks.emethod15usedonoutandtheghranThtfidwebseeo.Pagcwhihntain

5、vastaxnountsofinformationsuchas此searehofknowledgeWhenthePageIaeks,hyperlinksouralgorithmeanaehievebeterresultsthantraditionalkingalgoritbdonhy伴rlinkanalysisranhmasesuchasPageRank.,Keywords:RefRanKRaZ止ingAlgorithmContentRefe化nee1引言,随着Iniemet规模的迅速膨胀如何从Internet上获取用户需要的信息成为一个重要

6、的,。研究课题于是搜索引擎技术应运而生它根据用户的查询返回一系列可能与用户的查询,。相关的网页并按照某种算法对这些网页进行排序最后呈现在用户面前评价一个搜索引:、、。擎的性能主要有以下这些指标准确率查全率第一页(或前N个结果)的准确率由,,于Intemet上面的信息量极其庞大而且用户关心的是迅速准确的找到自己需要的信息’:本文相关研究得到国家高技术研究发展计划(863计划)资助(课题编号2007从012173):一,,,作者简介高禽(1983)男山西硕士研究生482。所以真正用户最直接体验的指标是第一页(或前N个结果)的准确率一个好的搜索引擎

7、,。必须有一个好的搜索结果排序算法将质量最好的网页放在第一页呈现给用户现在最广。泛应用的搜索结果排序算法是Pa罗Rank算法和H汀S算法Pa即Rarde算法与HITS算法均,。是基于链接分析的搜索引擎排序算法并且在算法中二者均利用了特征向量作为理论基础他们都有一个局限性即认为网页之间的全部联系就是超链接。所有的计算也都是基于网页之间的超链接进行.而现实中很可能网页中不包括显式的超链接,有可能以文字表明文章来,,源也可能直接引用其它文章的文字而不加说明或者虽然文字不是完全一致但是明显,借鉴了另外一篇文章等等按照PageR的思想这些行为实际上都应

8、当提高引用源页面的ank,,。排序分值但由于没有超链接存在所以现有的PageRank算法并不能体现这些关系这便。造成了PageR算法结果与实际情况的偏差ank,根据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。