搜索引擎与网络爬虫的浅析及实现---毕业论文.doc

搜索引擎与网络爬虫的浅析及实现---毕业论文.doc

ID:11000099

大小:500.00 KB

页数:33页

时间:2018-07-09

搜索引擎与网络爬虫的浅析及实现---毕业论文.doc_第1页
搜索引擎与网络爬虫的浅析及实现---毕业论文.doc_第2页
搜索引擎与网络爬虫的浅析及实现---毕业论文.doc_第3页
搜索引擎与网络爬虫的浅析及实现---毕业论文.doc_第4页
搜索引擎与网络爬虫的浅析及实现---毕业论文.doc_第5页
资源描述:

《搜索引擎与网络爬虫的浅析及实现---毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、搜索引擎与网络爬虫的浅析及实现本科毕业论文题目:搜索引擎与网络爬虫的浅析及实现姓名:学院:软件学院系:软件工程专业:软件工程年级:学号:指导教师:职称:年月33搜索引擎与网络爬虫的浅析及实现摘要随着互联网的发展,网上的资源越来越丰富,如何有效利用网上的资源,是当今信息时代的主题。搜索引擎的出现,就为如何在互联网的海洋中有效地搜索用价值的信息提供了一个很好的解决方法。本文将对互联网搜索引擎的系统结构进行详细的剖析,然后分别对搜索引擎的主要组成部分——网络爬虫,索引数据库,服务器端进行实例化分析。为了

2、达到让读者了解搜索引擎及网络爬虫的原理,笔者基于java平台上实现了一个简单的新闻搜索引擎,以其后几章里将以该引擎为例,阐明一般搜索引擎的基本原理和实现方法。新闻搜索引擎的原理简单说来是从指定的互联网页面上抓取超链接,然后对其进行解析、分类,并把结果(新闻条目)建立索引后加入数据库。用户从浏览器向Web服务器发出搜索请求,服务器端接到请求后,从索引数据库中搜索出匹配的新闻,通过web响应返回给客户端,并显示在用户浏览器上。关键字互联网信息搜索网络爬虫索引服务器33搜索引擎与网络爬虫的浅析及实现Ab

3、stractWiththedevelopmentoftheInternet,theresourceontheInternetbecomeshugeandvast.Howtoutilizetheresourceefficiently,istheexcitingtopicnowdays.ThecomeoutoftheSearchEngine,providessomehelpfulsolutionstothisproblem.Thisthesisbeginswithanalyzingthestructu

4、reoftheSearchEngine,andthenstatesthedetailsofthecomponentswhichconsistoftheSearchEngine.Thatis,Spider,IndexDatabaseandWebServer.Inordertomaketheaudiencesunderstandclearly,IimplementaNewsSearchEngineontheJavaPlatform.IwillanalyzetheprincipleofSearchEng

5、inewiththisinstance.TheprincipleoftheNewsSearchengineissimplytoacquirethehyperlinksonthewebpagebytheSpider.Thenthecollectionofhyperlinkswillbeparsed,classified,indexedandstoredintheIndexDatabase.WhilereceivingtherequestfromtheClient(usuallytheInternet

6、Explorer),theSearchEnginesearchesfortheinformationintheDatabaseimmediately,thenresponsestheresulttotheClientbyHttpmessage,showedontheInternetExplorer.KeywordsInternet,SearchEngine,Spider,Index,WebServer.33搜索引擎与网络爬虫的浅析及实现目录摘要2第一章搜索引擎简介71.1搜索引擎的发展历史71.2

7、搜索引擎的实现原理71.2.1搜索引擎的基本结构71.2.2网络爬虫91.2.3索引数据库91.2.4Web服务器91.3小结9第二章网络爬虫原理及设计102.1网络爬虫的概述及其工作原理102.2网络爬虫的搜索策略122.3构造网络爬虫132.3.1解析HTML132.3.2HTMLPage.open()方法142.3.3Vector类152.3.4Iterator接口152.3.5com.heaton.bot.Link类162.3.6利用Searcher类扫描网页162.4小结17第三章luc

8、ene下的索引和搜索173.1什么是Lucene173.2Lucene的原理分析183.3.Lucene的中文切分词机制183.4索引数据库的实现193.4.1生成索引数据库文件的IndexWriter类193.4.2AddNews(Stringurl,Stringtitle)方法193.5小结20第四章实验设计与结果演示224.1新闻搜索引擎程序结构224.2新闻搜索引擎服务器端234.3客户端274.4结果演示27第五章搜索引擎策略295.1概述295.2第四代搜索引擎搜索策略

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。