欢迎来到天天文库
浏览记录
ID:26859705
大小:2.25 MB
页数:62页
时间:2018-11-29
《基于网页分块的论坛爬虫关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于网页分块的论坛爬虫关键技术研究THERESEARCHONKEYTECHNIQUESFORPAGESEGMENTATIONBASEDFORUMCRAWLER张殿芳2009年12月国内图书分类号:TP399学校代码:10213国际图书分类号:004.62密级:公开工学硕士学位论文基于网页分块的论坛爬虫关键技术研究硕士研究生:张殿芳导师:叶允明副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机学院答辩日期:2009年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP39
2、9 U.D.C:004.62DissertationfortheMasterDegreeofEngineeringTHERESEARCHONKEYECHNIQUESFORPAGESEGMENTATIONBASEDFORUMCRAWLERCandidate:DianfangZhangSupervisor:AssociateProf.YunmingYeAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyA
3、ffiliation:ShenzhenGraduateSchoolDateofDefence:December,2009Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或问题的页面被互联网用户创建,因此论坛数据实际上已成为承载人类知识的巨大数据集。随着网络论坛信息量的增大,论坛网页收集工具
4、的精确性和高效性都面临着巨大的挑战。在这种形势下,迫切需要开发一套高效的论坛爬虫系统。本文围绕着论坛爬虫这一前沿技术,通过深入研究网络论坛的特征,网络爬虫的工作原理和相关技术的基础上,把网页分块的思想引入到论坛爬虫的爬行策略中以及在各种论坛中如何实现对不同论坛服务器的爬行,本文的主要成果可归纳为以下几个方面:本文在对网络论坛进行大量调研和深入分析的基础上,归纳总结出论坛的基本特征;接着对现有爬虫爬行论坛时遇到的问题进行了分析,找出了引起这些问题的根源;为了解决这些问题,在主题爬虫的一些爬行策略启发下,把网页分块
5、思想引入到论坛爬虫中,并提出一些优化论坛爬虫的方法。本文研究了网页分块的一些算法,提出了适合论坛页面的分块算法——基于论坛页面结构的垂直分块算法(WPS-VSA)。实验表明,这种算法有较好的通用性,而且对论坛页面有很高的页面分块精度。本文研究了网络爬虫的一些爬行策略,提出了适合大部分网络论坛的通用论坛爬行算法——基于页面分块的论坛爬行算法(WPS-FCA)。利用此算法可以在线过滤无效页面的链接;同时利用论坛页面的特征解决了页面翻页问题,为那些利用论坛网页内容的数据挖掘应用打下了良好的基础。实验表明,这种算法不光
6、节省了下载论坛网页的网络带宽和存储论坛网页的空间,而且还大大提高了抓取论坛网页的准确率和覆盖率,同时也方便了针对论坛数据内容的各种应用。基于上述的理论研究成果,本文设计并实现了一个论坛爬虫原型系统。关键词:WEB爬虫;论坛;页面分块;爬行策略;文档结构模型哈尔滨工业大学工学硕士学位论文AbstractAlongwithWeb2.0technologydevelopment,asatypicalapplicationofuser-createdcontent,Webforumsareverypopularinth
7、eworld.ThecountlesstopicsorissuesofallinwebpageshasbeencreatedbyInternetusers,sotheforumhasbecomethebearerdataisactuallyahugedatasetofhumanknowledge.Asthenetworkincreasestheamountofinformationintheforum,theforumwebsitetocollectaccuracyandefficiencyarefacedwi
8、thenormouschallenges.Inthissituation,weurgentlyneedtodevelopaneffectiveforumcrawlersystem.Thisforumcrawleraroundthecutting-edgetechnology,throughin-depthstudyofthecharacteristicsofInternetforums
此文档下载收益归作者所有