欢迎来到天天文库
浏览记录
ID:27724083
大小:424.00 KB
页数:7页
时间:2018-12-05
《中文搜索引擎中的pagerank算法及实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第28卷第7期计算机工程与设计2007年4月Vol.28No.7ComputerEngineeringandDesignApr.2007中文搜索引擎中的PageRank算法及实现琚洁慧1,2(1.浙江大学,浙江杭州310027;2.浙江科技学院,浙江杭州310023)摘要:由于网页质量千差万别,对网页进行基于网络链接图的质量排序变成了现代搜索引擎的一个重要部件。分析了对网络排序模块的实现进行优化时,造成大规模稀疏矩阵-向量乘法运算低效的原因,并结合网络链接图的实际情况提出了几种不同的优化策略。然后,对几种优化策略做了实验性能比较,并综
2、合考虑各种优化策略的运算效率和存储量需求,选择了适合实际系统的优化策略。同时,提出PageRank算法在实现时的一个变通处理——除汇。关键词:搜索引擎;网页排序;网络链接图;稀疏矩阵;汇点中图法分类号:TP393文献标识码:A文章编号:1000-7024(2007)07-1632-04RealizationofPageRankalgorithminChinesesearchengineJUJie-hui1,2(1.ZhejiangUniversity,Hangzhou310027,China;2.ZhejiangUniversityo
3、fScienceandTechnology,Hangzhou310023,China)Abstract:Webpagerankingmodelbasedonweblinkgraphbecomesavitalpartofmodernsearchengines.Thecausesresultinginthelowefficiencyoflarge-scalesparsematrix-vectormultiplicationareanalyzed.Then,combinedwiththeweblinkgraph,severaloptimiz
4、ingstrategiesbasedontheexperiencefromotherscholarsarebroughtforward.Afterthat,severaloptimizingstrategiesarechoosenforexperimentalcompare,andthebeststrategiesareselectedthroughthestrictcompareatbothtimeefficiencyandmemoryrequirement.Atthesametime,itintroduceanalternativ
5、esolutionintherealizationofPageRankalgorithm—removingofranksinks.Keywords:searchengine;webpageranking;weblinkgraph;sparsematrix;ranksink0引言质量判断的主要因素有:网站组织与布局、网页信息的数量和独特性。一般情况下,我们在衡量一个网页关于特定查询词Internet正以200%的用户增长率迅速发展,成为人们工作的质量时,需要考虑两个因素:查询词在网页中的词位与词频和生活不可缺少的信息来源。与此同时,We
6、b文件具有分布、信息;该网页相对于其它网页的相关重要性,既网页排序值。动态变化、结构复杂等特点,使得用户根本无法了解庞大的、瞬我们可以通过全文检索技术对中文词在网页中的词位和词频息万变的信息资源。由此,人们在信息海洋中搜索自己所需要信息进行统计;而在网页排序方面,链接分析已经成为被关注的信息的能力显得愈发重要。如今,网络信息检索的发展已初的焦点。通过分析页面之间的链接关系,搜索引擎不但可以具规模,搜索引擎成了人们在网上检索信息的必要工具。确定页面的主题,还可以判断该页面是否“重要”,以及是否值在经典的信息检索系统中,系统的性能一般由3
7、方面评得获得较高排序值。定:查全率、查准率、前10个页面的查准率。同时,我们还需准确衡量一个网页的质量是一件非常困难的事情,因为要考虑该系统的搜索效率。在网络信息检索系统中,由于网网页质量依赖于读者主观上的兴趣、知识面以及阅读态度。对页的质量千差万别,所以检索结果仅与主题相关还远远不够。于搜索引擎而言,有必要找到一个理想的排序算法,对网页进现代搜索引擎重视的,已不再是简单地向用户提供与查询条行客观和机械化的排序并有效衡量人们对网页的阅读兴趣和目相关的页面信息,利用网络链接结构来提高检索结果质量投入其中的关注程度。目前较具有代表性的网页
8、排序算法有的方法开始获得重视。为了使现代搜索引擎能够达到人们日HITS算法[1]和PageRank算法[2]。益增长的高性能要求,我们特别对搜索引擎中的网页排序模客观地讲,在查全率方面,HITS算法具有较高的优越性,型进
此文档下载收益归作者所有