欢迎来到天天文库
浏览记录
ID:36825676
大小:3.06 MB
页数:68页
时间:2019-05-16
《主题爬虫搜索Web页面策略的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中南大学硕士学位论文主题爬虫搜索Web页面策略的研究姓名:袁浩申请学位级别:硕士专业:计算机科学与技术指导教师:黄烟波20090501摘要随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫足解决通用搜索引擎可扩展性限制的有效方法。它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文通过制定框架,并以一些性能1,七匕313标为依据来评价主题爬虫算法,并结合分析研究以及开发之间的偏差可以得到它的最优性能。本文分析了各种不同类型的爬虫算法,并讨论他们的性能表现。本文
2、中提出了一种基于分层马尔科夫模型来区别网站和网页文本之间的传输方法。基于这一模型提出了两种不同的方法计算网站排名,一个是集中式的,一个是分散式的。这两种方法都根据Web图来得到网站排名。这两种方法作用是相同的,但是改进的算法需要为搜索引擎的建立端到端的架构,这一架构为基于链接的排名计算提供了理论基础,并使计算分散性的网络规模图成为可行。此外,网站排名可以在本地或者整个网络中进行计算。通过修改Lucene和Heritrix开源组件建立主题搜索引擎,实证结果表明,使用这个模型产生的排名与PageRank产生的排名相比性能是相近甚至更优的。
3、本文还提出了一种文本分类方法,通过分析网页标题,对抓取的网页内容主题进行分类,这一方法可以降低原本计算复杂的文本分类方法的工作强度。实验表明,使用这一分类算法,可以有效地提高计算效率。关键词主题爬虫,搜索引擎,马尔科夫规则,PageRank算法,文本分类算法AbstractWiththehi曲speeddevelopmentoftheIntemet,Generalpurposewebcrawlerbecomeincreasinglyunabletoextacttheinformationofthewebpageeffectivelyw
4、hiletheircrawlinginthisvastnetwork.Topicalcrawlersareincreasinglyseenasawaytoaddressthescalabilitylimitationsofuniversalsearchengines.Thecontextavailabletosuchcrawlerscanguidethenavigationoflinkswiththegoalofefficientlylocatinghighlyrelevanttargetpages.Thethesisdevelope
5、aframeworktofairlyevaluatetopicalcrawlingalgorithmsunderanumberofperformancemetrics.Itfindthatthebestperformanceisachievedbyanovelcombinationofexplorativeandexploitativebias,andintroduceanevolutionarycrawlerthatsurpassestheperformanceofthebestnonadaptivecrawleraftersuff
6、icientlylongcrawls.Inthisthesisalsoanalyzethecomputationalcomplexityofthevariouscrawlersanddiscusshowperformanceandcomplexityscalewithavailableresources.Inthisthesis,itproposeanewapproachbasedonaLayeredMarkovModeltodistinguishtransitionsamongWebsitesandWebdocuments.Base
7、donthismodel,weproposetwodifferentapproachesforcomputationofrankingofWebsite,acentralizedoneandadecentralizedone.Bothproduceawell—definedrankingforagivenWebgraph.Thenitformallyprovethatthetwoapproachesareequivalent.Thisprovidesatheoreticalfoundationfordecomposinglink-ba
8、sedrankcomputationandmakesthecomputationforaWeb—scalegraphfeasibleinadecentralizedfashion,suchasrequiredforWeb
此文档下载收益归作者所有