毕业论文,网络爬虫在信息获取领域的应用户

毕业论文,网络爬虫在信息获取领域的应用户

ID:11745004

大小:804.00 KB

页数:53页

时间:2018-07-13

毕业论文,网络爬虫在信息获取领域的应用户_第1页
毕业论文,网络爬虫在信息获取领域的应用户_第2页
毕业论文,网络爬虫在信息获取领域的应用户_第3页
毕业论文,网络爬虫在信息获取领域的应用户_第4页
毕业论文,网络爬虫在信息获取领域的应用户_第5页
资源描述:

《毕业论文,网络爬虫在信息获取领域的应用户》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、题目网络爬虫技术在信息获取领域的应用专业学生姓名班级学号指导教师指导单位摘要现在,大多数人们获取信息的途径已经不再是报纸和电视,而是互联网,一个曾被人们所漠视的领域,突然成为了人们获取信息的主要途径。人们等车前不会拿着报纸埋头读报,而是拿着手机翻看着网页,新闻;人们回到家也不会迫切的打开电视收看新闻,而是打开电脑查看这一天的新闻趣事。这一切的一切都要归功于搜索引擎,而一个搜索引擎的核心就是网络爬虫。这篇论文就为大家介绍并实现一个简单的网络爬虫。本论文一共分为四章,第一章介绍了课题的背景和网络爬虫的现状;第二章介绍了网络爬虫的原理和构架;第三章说明了实现网络爬虫的基本构思

2、和一些需要注意的协议算法;第四章展示了我的制作过程,结果,java代码。本篇论文向大家展示了爬虫的重要性和实用性,在现代网络中发挥的不可或缺的意义,并向大家展示了亲手实现一个网络爬虫应注意的问题和方法。向大家充分的说明了网络爬虫的原理和构架。本文中的爬虫是实用java语言在JDK软件上实现的,具有一定的功能,能较好的从实践上证明之前阐述的原理以及算法。关键词:网络爬虫,spider,java,JDKABSTRACTNow,mostpeoplegettheirinformationapproachisnolongerthenewspapersandtelevision,b

3、uttheInternet,ahadbeenpeopleignorefield,suddenlybecamethemainwaypeoplegetinformation.Peoplewon'ttakenewspaperssuchasinfront,buttookcellphonenewspaperleafingthroughtheweb,news;Thepeoplebacktohomealsowon'turgentopentelevisionnews,butopencomputercheckthisdaythenewsfun.Theyallshouldbeattribu

4、tedtothesearchengine,butasearchenginecoreiswebcrawlers.Thispaperistointroduceandimplementasimplewebcrawlers.Thisthesisissplitintofourchapters,thefirstchapterpresentsthebackgroundandthesubjectstatusofwebcrawlers;Thesecondchapterpresentstheprincipleandthenetworkcrawlerframe;Thethirdchapter

5、illustratesthebasicconceptionrealizethewebcrawlerandsomenoteagreementalgorithms;Thefourthchapterdemonstratesmymanufactureprocess,results,Javacode.Thispapertoshowyoutheimportanceofreptilesinthemodernnetworkandpracticability,playessentialmeaning,toshowyouthehandimplementawebcrawlersproblem

6、sshouldbepaidattentiontoandmethods.Toeveryonefullyillustratestheprincipleandwebcrawlersframe.InthispaperthecrawlerispracticalinJDKsoftwareJavalanguageonimplementation,hasacertainfunction,andcanbetterfrompracticebeforetheprincipleandthepaperprovedalgorithmispresented.Keywords:Webcrawlers,

7、spider,java,JDK目录引言1第1章 绪论21.1课题来源及意义21.1.1搜索引擎的分类和整体结构21.2网络爬虫研究现状41.3小结6第二章网络爬虫基本构架72.1聚焦爬虫的工作原理72.2抓取目标描述72.3内容的提取82.4爬虫的工作过程中索引器的应用92.5散列函数的构造法102.6小结11第三章爬虫构思123.1网络爬虫流程设计123.2解析Html文件133.3分析Html文件133.4相关协议的介绍153.4.1Socket套接字协议153.4.2HTTP/HTTPS协议163.4.3多线程与线程同步163.5小

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。