欢迎来到天天文库
浏览记录
ID:35056981
大小:4.68 MB
页数:91页
时间:2019-03-17
《基于hadoop的分布式网络爬虫研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、‘‘細圍11国MiIIImmm4各觀*葦,UNINAIVERSITYOF巨LECTRONICscIENCEANDTECHNOLOGYOFCHi硕±学位论文MASTERTHESIS^/’.、/乂、^方/M涵.'*?t产轉f(;产.....iHin论文题目基于Hadoo的分布式咧络爬虫妍究p学科专业通信与信息系统;H学号201321010630__’作者姓名董整指导教师孙健窩级工程师分类号密级注1UDC学位论文基于
2、Hadoop的分布式网络爬虫研究(题名和副题名)李松(作者姓名)指导教师孙健高级工程师电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业通信与信息系统提交论文日期2016.5.3论文答辩日期2016.5.23学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的ResearchOfDistributedWebCrawlerBasedOnHadoopAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChina
3、Major:CommunicationandInformationSystemsAuthor:LiSongSupervisor:A.Prof.SunJianSchool:SchoolofCommunicationandInformationEngineering独剑性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同王作的同志对本研究所做的
4、任何贡献均已在论文中作了明确的说明并表示谢意。^作者签名:日期:年f月巧日韦私论支使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:寺私导师签名;-知健/日期:iMk年r月%日摘要摘要随着互联网的飞速发展,Web上的网页信息迅
5、猛增长,面对互联网上错综复杂、规模巨大的海量信息时,单机网络爬虫由于计算能力和存储空间的局限性,使得抓取和处理海量数据变得十分困难。而由Apache基金会研发的Hadoop分布式计算平台在处理和存储海量数据有着高可用性、高伸缩性、高扩展性的特点,使Hadoop技术迅速成为了海量数据处理领域的热门首选。将网络爬虫技术与Hadoop分布式计算平台结合组成的分布式网络爬虫有效解决了海量网页数据的抓取、存储和分析的问题。因此基于Hadoop的分布式网络爬虫具有十分重要的研究价值和意义。本文对网络爬虫中的两个算法:链接分析算法和URL去重算法进行了研究与分析,
6、并针对算法在Hadoop环境下的不足进行了改进优化。在网络爬虫抓取网页后,需要对抓取下来的网页进行重要性的分析,PageRank算法是Google用于标识网页的重要性的一种方法,而在大数据环境下,基于Hadoop的PageRank算法中每个URL的出链接都会作为MapReduce中间结果输出,使得Map函数输出文件很大,而这些结果文件需要通过网络传输到Reduce端,过多的时间消耗在网络传输上,造成算法的计算效率低。针对这一问题,本文第四章对基于Hadoop的PageRank算法进行了改进,根据URL链接形成的Web图的特点,对Web图进行分割,划分
7、为URL子图,将子图内与子图之间PageRank的部分合并计算转移到Map阶段,减少了Map函数输出文件大小,从而降低了MapReduce的中间网络传输时间,提高了算法效率。URL去重算法同样也是网络爬虫中的一个重要算法,URL去重算法在爬虫新抓取的URL加入待抓取队列之前,过滤已经抓取过的重复URL,使得网络爬虫的性能得到提高。本文重点研究了布隆过滤器去重算法,BloomFilter的占用的空间与元素本身无关,有较高的空间效率,插入和查询操作的时间复杂度也较低,且过滤器中位数组也适合并行实现;但随着元素的添加,过滤器的误判率也随之增加,将许多无重复
8、的URL过滤,对爬虫性能造成影响。针对这一问题,本文第五章对标准过滤器进行改进,提出动态主从布隆过滤器结构的
此文档下载收益归作者所有