欢迎来到天天文库
浏览记录
ID:14445808
大小:103.00 KB
页数:51页
时间:2018-07-28
《毕业论文(设计)网络爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、毕业论文(设计)网络爬虫的设计与实现摘要网络爬虫是一种自动搜集互联网信息的程序通过网络爬虫不仅能够为搜索引擎采集网络信息而且可以作为定向信息采集器定向采集某些网站下的特定信息如招聘信息租房信息等本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序本论文阐述了网络爬虫实现中一些主要问题为何使用广度优先的爬行策略以及如何实现广度优先爬行为何要使用多线程以及如何实现多线程系统实现过程中的数据存储网页信息解析等通过实现这一爬虫程序可以搜集某一站点的URLs并将搜集到的URLs存入数据库关键字网络爬虫
2、JAVA广度优先多线程ABSTRACTSPIDERisaprogramwhichcanautocollectinformationsfrominternetSPIDERcancollectdataforsearchenginesalsocanbeaDirectionalinformationcollectorcollectsspecificallyinformationsfromsomewebsitessuchasHRinformationshouserentinformationsInthisp
3、aperuseJAVAimplementsabreadth-firstalgorithmmulti-threadSPDIERThispaperexpatiatessomemajorproblemsofSPIDERwhytousebreadth-firstcrawlingstrategyandhowtoimplementbreadth-firstcrawlingwhytousemulti-threadingandhowtoimplementmulti-threaddatastructure6>HTM
4、LcodeparseetcThisSPIDERcancollectURLsfromonewebsiteandstoreURLsintodatabaseKEYWORDSPIDERJAVABreadthFirstSearchmulti-threads第一章引言1第二章相关技术介绍221JAVA线程2com线程概述2comJAVA线程模型2com创建线程3comJAVA中的线程的生命周期4comJAVA线程的结束方式4com多线程同步522URL消重5comURL消重的意义5com网络爬虫URL去重储存
5、库设计5comLRU算法实现URL消重723URL类访问网络824 爬行策略浅析8com深度优先搜索策略8com聚焦搜索策略9com容评价的搜索策略9com基于链接结构评价的搜索策略10com基于巩固学习的聚焦搜索11com基于语境图的聚焦搜索11第三章系统需求分析及模块设计1331系统需求分析1332SPIDER体系结构1333各主要功能模块类设计1434SPIDER工作过程14第四章系统分析与设计1641SPIDER构造分析1642爬行策略分析1743URL抽取解析和保存18comURL抽取1
6、8comURL解析19comURL保存19第五章系统实现2151实现工具2152爬虫工作2153URL解析2254URL队列管理24comURL消重处理24comURL等待队列维护26com数据库设计27第六章系统测试29第七章结论32参考文献33致谢34外文资料原文35译文51第一章引言随着互联网的飞速发展网络上的信息呈爆炸式增长这使得人们在网上找到所需的信息越来越困难这种情况下搜索引擎应运而生搜索引擎搜集互联网上数以亿计的网页并为每个词建立索引在建立搜索引擎的过程中搜集网页是非常重要的一个环节
7、爬虫程序就是用来搜集网页的程序以何种策略偏历互联网上的网页也成了爬虫程序主要的研究方向现在比较流行的搜索引擎比如google百度它们爬虫程序的技术内幕一般都不公开目前几种比较常用的爬虫实现策略广度优先的爬虫程序Repetitive爬虫程序定义爬行爬虫程序深层次爬行爬虫程序此外还有根据概率论进行可用Web页的数量估算用于评估互联网Web规模的抽样爬虫程序采用爬行深度页面导入链接量分析等方法限制从程序下载不相关的Web页的选择性爬行程序等等爬虫程序是一个自动获取网页的程序它为搜索引擎从互联网上下载网页
8、是搜索引擎的重要组成部分爬虫程序的实现策略运行效率直接影响搜索引擎的搜索结果不同的搜索引擎会根据对搜索结果的不同需求选择最合适的爬行策略来搜集互联网上的信息高效优秀的爬虫程序可以使人们在互联网上寻找到更及时更准确的信息实现网络爬虫的重点和难点有多线程的实现对临界资源的分配遍历web图的遍历策略选择和实现存储数据结构的选择和实现本文通过JAVA语言实现一个基于广度优先偏历算法的多线程爬虫程序通过实现此爬虫程序可以定点搜集某一站点的URLs如果需要搜集其他信息可以在解析URLs的同时解
此文档下载收益归作者所有