基于hadoop的分布式网络爬虫研究

ID：35056981

大小：4.68 MB

页数：91页

时间：2019-03-17

资源描述：

《基于hadoop的分布式网络爬虫研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、‘‘細圍１１国ＭｉＩＩＩｍｍｍ４各觀＊葦，ＵＮＩＮＡＩＶＥＲＳＩＴＹＯＦ巨ＬＥＣＴＲＯＮＩＣｓｃＩＥＮＣＥＡＮＤＴＥＣＨＮＯＬＯＧＹＯＦＣＨｉ硕±学位论文ＭＡＳＴＥＲＴＨＥＳＩＳ＾／’．、／乂、＾方／Ｍ涵．＇＊？ｔ产轉ｆ（；产．．．．．ｉＨｉｎ论文题目基于Ｈａｄｏｏ的分布式咧络爬虫妍究ｐ学科专业通信与信息系统；Ｈ学号２０１３２１０１０６３０＿＿’作者姓名董整指导教师孙健窩级工程师分类号密级注1UDC学位论文基于

2、Hadoop的分布式网络爬虫研究（题名和副题名）李松（作者姓名）指导教师孙健高级工程师电子科技大学成都（姓名、职称、单位名称）申请学位级别硕士学科专业通信与信息系统提交论文日期2016.5.3论文答辩日期2016.5.23学位授予单位和日期电子科技大学2016年6月答辩委员会主席评阅人注1：注明《国际十进分类法UDC》的ResearchOfDistributedWebCrawlerBasedOnHadoopAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChina

3、Major：CommunicationandInformationSystemsAuthor：LiSongSupervisor：A.Prof.SunJianSchool：SchoolofCommunicationandInformationEngineering独剑性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加标注和致谢的地方夕ｈ论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同王作的同志对本研究所做的

4、任何贡献均已在论文中作了明确的说明并表示谢意。＾作者签名：日期：年ｆ月巧日韦私论支使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部口或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可Ｗ将学位论文的全部或部分内容编入有关数据库进行检索，可采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）作者签名：寺私导师签名；－知健／日期：ｉＭｋ年ｒ月％日摘要摘要随着互联网的飞速发展，Web上的网页信息迅

5、猛增长，面对互联网上错综复杂、规模巨大的海量信息时，单机网络爬虫由于计算能力和存储空间的局限性，使得抓取和处理海量数据变得十分困难。而由Apache基金会研发的Hadoop分布式计算平台在处理和存储海量数据有着高可用性、高伸缩性、高扩展性的特点，使Hadoop技术迅速成为了海量数据处理领域的热门首选。将网络爬虫技术与Hadoop分布式计算平台结合组成的分布式网络爬虫有效解决了海量网页数据的抓取、存储和分析的问题。因此基于Hadoop的分布式网络爬虫具有十分重要的研究价值和意义。本文对网络爬虫中的两个算法：链接分析算法和URL去重算法进行了研究与分析，

6、并针对算法在Hadoop环境下的不足进行了改进优化。在网络爬虫抓取网页后，需要对抓取下来的网页进行重要性的分析，PageRank算法是Google用于标识网页的重要性的一种方法，而在大数据环境下，基于Hadoop的PageRank算法中每个URL的出链接都会作为MapReduce中间结果输出，使得Map函数输出文件很大，而这些结果文件需要通过网络传输到Reduce端，过多的时间消耗在网络传输上，造成算法的计算效率低。针对这一问题，本文第四章对基于Hadoop的PageRank算法进行了改进，根据URL链接形成的Web图的特点，对Web图进行分割，划分

7、为URL子图，将子图内与子图之间PageRank的部分合并计算转移到Map阶段，减少了Map函数输出文件大小，从而降低了MapReduce的中间网络传输时间，提高了算法效率。URL去重算法同样也是网络爬虫中的一个重要算法，URL去重算法在爬虫新抓取的URL加入待抓取队列之前，过滤已经抓取过的重复URL，使得网络爬虫的性能得到提高。本文重点研究了布隆过滤器去重算法，BloomFilter的占用的空间与元素本身无关，有较高的空间效率，插入和查询操作的时间复杂度也较低，且过滤器中位数组也适合并行实现；但随着元素的添加，过滤器的误判率也随之增加，将许多无重复

8、的URL过滤，对爬虫性能造成影响。针对这一问题，本文第五章对标准过滤器进行改进，提出动态主从布隆过滤器结构的

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 91



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于hadoop的分布式网络爬虫研究

基于hadoop的分布式网络爬虫研究

相关文章

相关标签