欢迎来到天天文库
浏览记录
ID:207442
大小:1.14 MB
页数:67页
时间:2017-07-03
《基于广度优先算法的多线程爬虫程序毕业设计.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、沈阳理工大学学士学位论文基于广度优先算法的多线程爬虫程序毕业设计目录1绪论11.1网络爬虫的发展11.2国内外技术发展现状21.3系统设计的意义32总体设计方案42.1系统设计方案42.2系统设计框图42.3网络爬虫的相关技术52.3.1URL52.3.2HTTP协议62.3.3JAVA多线程92.3.4JAVA网络编程163系统软件设计213.1系统软件概述213.2Eclipse软件介绍213.3服务器端设计223.3.1网本页解析部分223.3.2获取新的网络代理部分363.4.1登录部分373.4.2Table模块373.4.2上传档及查询部分393.5Socket通信部分393
2、.5.1什么是Socket393.5.2服务端部分443.5.3客户端部分464系统运行484.1服务器端界面484.2客户端界面50结论51致谢52参考文献53外文资料原文55附录B汉语翻译6265沈阳理工大学学士学位论文附录C程序代码6665沈阳理工大学学士学位论文1绪论1.1网络爬虫的发展在互联网发展的早期,网站数量相对较少,信息数据量不大,查找也比较容易。然而伴随互联网井喷性的发展,普通网络用户想找到自己所需的数据简直如同在数据的海洋里捞针,为满足大众信息检索需求的专业搜索网站便应运而生了。所有搜索引擎的鼻祖,是1990年由Montreal的McGillUniversity三名学
3、生(AlanEmtage、PeterDeutsch、BillWheelan)发明的Archie(ArchieFAQ)。AlanEmtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher(GopherFAQ)搜索工具Ver
4、onica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工具。虽然当时万维网还未出现,但网络中档传输还是相当频繁的,而且由于大量的档散布在各个分散的FTP主机中,查询起来非常不便,因此AlanArchie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。当时,“机器人”一词在编程者中十分流行。计算机“机器人”(ComputerRobot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就
5、被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是MatthewGray开发的WorldwideWebWanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与Wanderer相对应,MartinKosher于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在MatthewGray的Wanderer基础上,一些编程者将传统的“蜘蛛”65沈阳
6、理工大学学士学位论文程序工作原理作了些改进。直到一些编程者提出了这样的设想,既然所有网页都可能有连向其它网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,但是早期的搜索引擎只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键词串匹配程度概念的引擎。最早现代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos(2000年被西班牙网络集团TerraL
7、ycosNetwork收购)。同年4月,斯坦福(Stanford)大学最为著名的两名博士生,美籍华人杨致远(GerryYang)和DavidFilo共同创办了Yahoo公司,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。像国外的Google,国内的百度,这样的搜索引擎巨擘由于掌握的大多数的入口流量,成为互联网世界的霸主,并带来了巨大的
此文档下载收益归作者所有