欢迎来到天天文库
浏览记录
ID:33288683
大小:1.01 MB
页数:69页
时间:2019-02-23
《bittorrent种子文件获取技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、工学硕士学位论文BitTorrent种子文件获取技术研究与实现苏马婧哈尔滨工业大学2009年6月图书分类号:TP393.09学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文BitTorrent种子文件获取技术研究与实现硕士研究生:苏马婧导师:方滨兴教授申请学位级别:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与工程系答辩日期:2009年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP393.09U.D.C.:621.3Thesisforthe
2、MasterDegreeRESEARCHANDIMPLEMENTATIONOFBITTORRENTCRAWLERCandidate:SuMajingSupervisor:Prof.FangBinxingAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:ComputerScienceandTechnologyDateofDefence:June,2009Degre
3、e-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要BitTorrent(简称BT)作为一种高效的P2P文件共享协议为越来越多的人所使用和关注,也成为学术界研究的热点。目前的BT发布站点或搜索引擎在效率、全面性、安全性上存在着或多或少的不足。为此,本文提出了对BT种子文件获取技术的研究,实现一个快速、全面的BT种子爬虫系统,为设计方便用户使用的BT搜索引擎和为基于种子文件的BT网络行为分析和BT数据挖掘等提供数据
4、来源。本文通过分析当前面向BT种子文件获取的聚焦爬虫面临的问题,从提高系统获取效率、提高爬虫爬全率的角度出发,提出了基于正则表达式规则的URL过滤技术、基于Hash的种子文件去重机制,解决了爬虫的自动登录和AJAX网页的解析这两个传统爬虫在BT种子文件获取这种面向主题应用中存在的难题。为了降低爬虫获取种子延时,改进了现有的数据抓取和数据更新机制,提出了新的URL爬行任务选择策略和动态任务调整策略。对每一种技术和方法进行了分析和实验验证,这些技术不仅适用于BT种子文件获取,也适用于通用爬虫和面向其他
5、主题应用的聚焦爬虫。最后通过设计并实现一个基于Hadoop框架的分布式并行BT种子文件获取系统,对系统进行了性能评测和对获取到的种子文件进行了简单的分析挖掘,实验结果进一步验证了本文提出的技术和方法可以使爬虫系统性能达到实用水平。关键词:BitTorrent;聚焦爬虫;自动登陆;AJAX解析;分布式-I-哈尔滨工业大学工学硕士学位论文AbstractBitTorrent(referredasBT)asahighlyeffectivePeer-to-Peerresourcesharingtechno
6、logyisusedbymoreandmorepeopleandattractmoreandmoreattention.Italsobecomesahotspottoacademicresearchers.Atpresent,BitTorrentpublishsiteandBTsearchengineshavetheirshortageofefficiency,comprehensivenessandsafety.Forthispurpose,thispaperstudiestechnologie
7、sofcrawlingtorrentfileinwebsiteandhasaccomplishedahigh-speed,comprehensiveBTtorrentfilecrawler.Itwillcontributetodesignauser-friendlyBTsearchenginesandprovidedataforBTnetworkbehavioranalysisanddataminingbasedonBitTorrentfile.Bydiscussingproblemsofthef
8、ocusedcrawlersfordownloadingBTtorrentfile,someschemeisraisedtoimproveefficiency,increasetorrentcoverage.TheseincludesURLfilteringtechnologybasedonregularexpressionrules,duplicatedtorrentfilesdeletionbasedonhash,auto-loginandAJAXwebpagesparsing
此文档下载收益归作者所有