欢迎来到天天文库
浏览记录
ID:35534366
大小:616.00 KB
页数:17页
时间:2019-03-25
《网络程序设计课程论文--网络爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JISHOU UNIVERSITY专业课课程论文题目:网络爬虫的设计与实现作者:学号:所属学院:信息科学与工程学院专业年级:总评分:完成时间:吉首大学信息科学与工程学院网络爬虫的设计与实现(吉首大学信息科学与工程学院,湖南吉首416000)摘要网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。本文通过Python及第三方库(TCP/IP)实现了爬虫程序。本论文阐述了网络爬虫实现中一
2、些主要问题:如何实现爬行系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的URL,并将搜集到的URL存入数据库。关键词:网络爬虫;python;TCP/IP;URLs;TheDesignandImplementationofwebofSpiderLiWei(CollegeofInformationScienceandEngineering,JishouUniversity,Jishou,Hunan416000)AbstractSPIDERisaprogramwhi
3、chcanautocollectinformationsfrominternet.SPIDERcancollectdataforsearchengines,alsocanbeaDirectionalinformationcollector,collectsspecificallyinformationsfromsomewebsites,suchasHRinformations,houserentinformations.Inthispaper,usePythonwithThethirdLabri
4、aryarebasedon(TCP/IP)ThispaperexpatiatessomemajorproblemsofSPIDER:andhowtoimplementdatastructure;HTMLcodeparse.etc.ThisSPIDERcancollectURLsfromonewebsite,andstoreURLsintodatabase.maketheresultsandstatistics,displaytheresultsofdatapacketcaptureandsoon
5、.Keywords:SPIDER;python;TCP/IP;URL目录第一章引言11.1课题背景及意义11.2课题研究现状11.3研究内容11.4论文组织方式2第二章关键技术32.1EASY_INSTALL32.1.1requests;forHumans的网络库32.1.2wget:命令行下载工具32.2抓包工具32.2.1firebugs32.2.2URL消重52.2.3网络爬虫URL去重储存库设计52.2.4基于磁盘的顺序存储6第三章需求分析73.1功能需求73.2SPIDER体系结构7第
6、四章详细设计84.1SPIDER结构设计84.2流程结构设计84.3详细分析9结束语12参考文献13第一章引言1.1课题背景及意义当Google[1]创始人用python[2]写下他们第一个简陋的爬虫,运行在同样简陋的服务器上的时候。很少有人能够想象,在接下的数十年间,他们是怎样地颠覆了互联网乃至于人类的世界。而今天,我们谨以一只小小的python爬虫,作为自己的第一个网络程序设计,以爬虫的基本原理来学习搜索引擎的基本实现。1.2课题研究现状网络爬虫技术是抓取web信息的关键技术,它通过Fire
7、Bug技术,过滤技术获取原始数据,根据TCP/IP分层理论进行层层拆解,提取相关协议中的信息。本课程设计主要通过requests:forHumans(github[3]排行前100),firebug(firefox浏览器调试工具)开发包,在Python环境下编写出了一款简单的爬虫软件。Python是一种可以撰写跨平台应用软件的面向对象的程序设计和函数式编程语言,从开放至今已有20余年的时间。由于社区资源丰富,有强大的高质量第三方库和文档支持。并以简单易学受到了广大编程爱好者的选择,在全球云计算和
8、移动互联网的产业环境下,Python更具备了显著优势和广阔前景。1.3研究内容20世纪90年代以来,以Internet为代表的计算机网络技术发展突飞猛进,促进了计算机网络在社会各个领域的广泛应用,而网络监听对于网络与信息安全一直是一个比较敏感的话题,作为一种发展比较成熟的技术,监听在协助网络管理员监测网络传输数据,排除网络故障等方面具有不可替代的作用,因而一直倍受网络管理员的青睐。由于在Windows平台下系统对网络底层的内核级封装,使得直接利用系统难以进行有效的网络监控,以及Linux平台下抓
此文档下载收益归作者所有