bittorrent种子文件获取技术研究与实现

bittorrent种子文件获取技术研究与实现

ID:33288683

大小:1.01 MB

页数:69页

时间:2019-02-23

bittorrent种子文件获取技术研究与实现_第1页
bittorrent种子文件获取技术研究与实现_第2页
bittorrent种子文件获取技术研究与实现_第3页
bittorrent种子文件获取技术研究与实现_第4页
bittorrent种子文件获取技术研究与实现_第5页
资源描述:

《bittorrent种子文件获取技术研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学硕士学位论文BitTorrent种子文件获取技术研究与实现苏马婧哈尔滨工业大学2009年6月图书分类号:TP393.09学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文BitTorrent种子文件获取技术研究与实现硕士研究生:苏马婧导师:方滨兴教授申请学位级别:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与工程系答辩日期:2009年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP393.09U.D.C.:621.3Thesisforthe

2、MasterDegreeRESEARCHANDIMPLEMENTATIONOFBITTORRENTCRAWLERCandidate:SuMajingSupervisor:Prof.FangBinxingAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:ComputerScienceandTechnologyDateofDefence:June,2009Degre

3、e-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要BitTorrent(简称BT)作为一种高效的P2P文件共享协议为越来越多的人所使用和关注,也成为学术界研究的热点。目前的BT发布站点或搜索引擎在效率、全面性、安全性上存在着或多或少的不足。为此,本文提出了对BT种子文件获取技术的研究,实现一个快速、全面的BT种子爬虫系统,为设计方便用户使用的BT搜索引擎和为基于种子文件的BT网络行为分析和BT数据挖掘等提供数据

4、来源。本文通过分析当前面向BT种子文件获取的聚焦爬虫面临的问题,从提高系统获取效率、提高爬虫爬全率的角度出发,提出了基于正则表达式规则的URL过滤技术、基于Hash的种子文件去重机制,解决了爬虫的自动登录和AJAX网页的解析这两个传统爬虫在BT种子文件获取这种面向主题应用中存在的难题。为了降低爬虫获取种子延时,改进了现有的数据抓取和数据更新机制,提出了新的URL爬行任务选择策略和动态任务调整策略。对每一种技术和方法进行了分析和实验验证,这些技术不仅适用于BT种子文件获取,也适用于通用爬虫和面向其他

5、主题应用的聚焦爬虫。最后通过设计并实现一个基于Hadoop框架的分布式并行BT种子文件获取系统,对系统进行了性能评测和对获取到的种子文件进行了简单的分析挖掘,实验结果进一步验证了本文提出的技术和方法可以使爬虫系统性能达到实用水平。关键词:BitTorrent;聚焦爬虫;自动登陆;AJAX解析;分布式-I-哈尔滨工业大学工学硕士学位论文AbstractBitTorrent(referredasBT)asahighlyeffectivePeer-to-Peerresourcesharingtechno

6、logyisusedbymoreandmorepeopleandattractmoreandmoreattention.Italsobecomesahotspottoacademicresearchers.Atpresent,BitTorrentpublishsiteandBTsearchengineshavetheirshortageofefficiency,comprehensivenessandsafety.Forthispurpose,thispaperstudiestechnologie

7、sofcrawlingtorrentfileinwebsiteandhasaccomplishedahigh-speed,comprehensiveBTtorrentfilecrawler.Itwillcontributetodesignauser-friendlyBTsearchenginesandprovidedataforBTnetworkbehavioranalysisanddataminingbasedonBitTorrentfile.Bydiscussingproblemsofthef

8、ocusedcrawlersfordownloadingBTtorrentfile,someschemeisraisedtoimproveefficiency,increasetorrentcoverage.TheseincludesURLfilteringtechnologybasedonregularexpressionrules,duplicatedtorrentfilesdeletionbasedonhash,auto-loginandAJAXwebpagesparsing

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。