基于Java平台的分布式网络爬虫系统研究.pdf

基于Java平台的分布式网络爬虫系统研究.pdf

ID:49302857

大小:52.61 KB

页数:1页

时间:2020-02-29

基于Java平台的分布式网络爬虫系统研究.pdf_第1页
资源描述:

《基于Java平台的分布式网络爬虫系统研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、科技创新与应用2017年第1期信息技术基于Java平台的分布式网络爬虫系统研究郑豪何彦雨*(北京林业大学工学院,北京100083)摘要:近年来,互联网行业取得了飞速发展,国内网民数量不断增加,互联网在人民生活中的影响日益显著。文章主要分析了网络爬虫的基本原理和设计过程,介绍了网络爬虫开发过程中所采用的编程语言、开发环境以及分析工具,介绍了目前网络爬虫经常遇到的反爬措施和应对方法。通过对比不同编程语言、编程环境在实现网络爬虫过程中的优势和不足,得出更为适合编写网络爬虫的开发方式。通过对比不同网络分析工具在抓取网络封包和分析数据中的功能特点,向设计者推荐了分析网络请

2、求和查看数据的有效工具。关键词:爬虫技术;分布式;Java;互联网1概述随着互联网和软件行业的迅速发展,面向对象的程序设计方法在国内,关于网络爬虫技术的研究始终没有停止,许多高校的被广泛采用,不同具有面向对象特征的网络编程语言也纷纷涌现。网络技术实验室都有专门的研究团队。在研究成果中,北京大学的网络编程语言具有代码简洁、执行效率高的优点,适合在互联网上“北大天网”系统在国内具有颇高的影响。作为国内第一个基于索引传输和执行。Java、Python以及PHP是目前市面上最常用的三种编搜索的搜索引擎,北大天网使用分布式技术替代集中式,在性能上程语言。有很大提升,使其可

3、以对海量的页面进行爬取和搜索,进而向众多由于网络爬虫需要处理大量的数据,运用多种解决方案,因此互联网访问者提供快捷的网页信息搜索及导航服务。此外,国内其使用Java进行多线程编程并利用其成熟的库是最好的选择。综上所他重点高校如北京航空航天大学,西安电子科技大学等都对网络爬述,文章主要利用Eclipse进行Java程序开发来实现网络爬虫。虫技术也有深入研究并提出相关成果。3.2运行环境然而,随着互联网中数据量的不断增加,以及大数据、云计算、目前常见的服务器框架主要有wamp和lnmp两种。wamp即人工智能等新兴技术的发展,对网络爬虫的要求也不断提高,甚至Wind

4、ows下的Apache服务器以及MySQL数据库和PHP等语言组需要对网络爬虫的框架以及爬取策略做出调整,以满足不断发展的成的服务器框架,lnmp则是Linux系统下的nginx服务器、MySQL数行业需求。此外,网络爬虫声名远播的同时,也提高了业内对数据保据库以及PHP语言组成的服务器框架。相比而言,两者都具有自己护和反爬技术的关注,国内外各大网站纷纷采取了相应的反爬虫技的优势,也有各自的一些局限。术,增加了爬取数据的难度,对网络爬虫提出了新的挑战。4常见反爬取措施与应对方法2网络爬虫基本原理4.1添加登录机制2.1网络爬虫的基本原理通过添加登录机制,使用户必

5、须登陆后在可以看到相应的数据网络爬虫是搜索引擎的重要组成部分,主要实现对互联网中页信息,从而提高数据的安全性,增加网络爬虫爬取数据的难度。但面的获取和储存。从本质上讲,网络爬虫是一个网络程序,通常基于是,从实现原理上分析,添加登录机制只是在请求网页数据时添加TCP/IP协议和HTTP协议,随着HTTPS协议的不断推广,基于一个与用户唯一对应的token(计算机身份认证中的令牌),只要获HTTPS的网络爬虫也收到科研学者和网络工程师的推崇。常见网络取到这个token就可以模仿真实用户进行登录后的操作。爬虫的基本原理一般可以概括为从一个初始URL开始,获取该4.2使

6、用验证码URL指向的网页,然后分析该网页的内容,提取其中的网页链接作添加验证码是目前最主要的一种数据保护措施。通过添加验证为新的URL,再次获取新的URL所指向的网页,如此循环,直到没码,可以有效防止计算机程序频繁访问网页以及机器暴力破解。因有新的URl或者满足程序设定的结束条件。而这种方法在互联网中得到了广泛使用。从简单的数字验证码,到2.2数据存储数字字母以及干扰线条相结合,再到语义运算验证码和图片匹配验目前,科研单位和企业中最常用的数据库软件主要为Oracle和证码。各种验证码机制层出不穷,极大地增加了爬取数据的难度。作MySQL。Oracle属于大型数据

7、库,Mysql则是中小型数据库。在价格为应对措施,研究人员提出了验证码自动识别,机器学习等多种措上,Oracle价格较高,MySQL采用开源形式,通常为免费使用。在性施破解验证码的限制。能上,Oracle性能稳定支持高并发和大访问量,在OLTP(联机事务4.3进行IP封锁处理过程)中得到很好的使用。MySQL在稳定性和高并发上虽然不IP封锁是众多反爬措施中最强力里的一种,即网站管理者通过及Oracle,在事务处理上也不太成熟,但是在中小型企业的使用中检测服务器接受到的所有请求,从中挑出访问次数和频率都明显高能够轻松胜任各种数据处理。此外,Oracle占用较高的安

8、装空间而过正常值的请求,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。