基于nutch与lucene构建网络搜索引擎

基于nutch与lucene构建网络搜索引擎

ID:26445723

大小:705.23 KB

页数:44页

时间:2018-11-27

基于nutch与lucene构建网络搜索引擎_第1页
基于nutch与lucene构建网络搜索引擎_第2页
基于nutch与lucene构建网络搜索引擎_第3页
基于nutch与lucene构建网络搜索引擎_第4页
基于nutch与lucene构建网络搜索引擎_第5页
资源描述:

《基于nutch与lucene构建网络搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要随着互联网的不断发展,网络搜索在人们平时上网的时候起到了至关重要的作用,在网络搜索中搜索引擎则扮演者最关键的角色,搜索引擎是一款特别的软件系统,他能够从互联网中自动搜索信息,并为用户提供服务。在搜索引擎开发这个领域,Lucence系统是其他系统无法替代的,并且由于此系统是开源的,目前广泛用于全文搜索引擎的项目中。本课题就是通过Nutch与Lucene构建一个网络搜索引擎,学习网络搜索引擎技术。关键词:搜索引擎,中文分词,Nutch,爬取,索引,Lucene35AbstractABSTRACTWiththecontinuousdevelopmentoftheInternet.S

2、earchusuallywhentheInternetisveryimportant.Searchisthemostimportantsearchengine.Thesearchengineisaspecialsoftwaresystem.HewasabletosearchforinformationfromtheInternetautomatically.Andtoprovideservicesforusers.Inthefieldofsearchenginedevelopment.Lucencesystemcannotbereplaced.Andbecausethissystem

3、hasbeenopen.Itwidelyusedforfull-textsearchengineproject.TheissueistobuildanetworkbyNutchandLucenesearchengine.Learningnetworksearchenginetechnology.KeyWords:Search,Engine,ChineseWordSegmentation,Nutch,Crawling,Search,Lucene35目录目录第1章引言11.1搜索引擎的发展背景11.2项目背景21.3项目介绍31.4小结3第2章搜索引擎简介42.1搜索引擎概述42.2搜索

4、引擎的搜索52.3搜索引擎的分类52.4现今网络中主流的一些搜索引擎介绍72.5小结8第3章搜索引擎的工作原理93.1搜索引擎技术框架93.2搜索引擎的原理93.3中文分词123.3.1中文分词算法133.3.2中文分词算法工具173.4Nutch193.4.1Nutch概述193.4.2Nutch结构193.4.3Nutch的工作原理213.5Nutch的优点223.6Nutch和Lucene233.7小结24第4章系统分析与设计254.1系统需求分析254.1.1系统定位254.1.2系统结构分析2535目录4.2小结26第5章Nutch搜索引擎系统实现275.1开发环境275.

5、2准备工作275.3详细步骤285.3.1配置过程285.3.2爬取部分305.3.3搜索部分(成果展示)31第6章总结33参考文献34致谢35外文资料原文36译文3735第1章引言第1章引言1.1搜索引擎的发展背景当今是科学发展日新月异、不断发展的社会,网络更是发展的飞快,随着网络的飞速发展,现在已经成为人们生活中必不可少的一部分,网络搜索的重要性不言而喻,所以搜索引擎的重要性更是重中之重。现如今,百度、谷歌等搜索网站的巨大成功,使得搜索引擎这一块更加受到人们的关注,从最初的Google、Yahoo到现今的百度、Sogou、搜搜等,搜索引擎愈来愈多,服务也更加全面,不光是这些专门做

6、搜索引擎的公司,很多网站也在加入检索功能,用来满足用户的需要,各个企业同样也是需要用全文检索等功能来加强对自己企业的管理,由此可见,网络搜索引擎的重要性。在互联网发展的初期,网站相对较少,信息的查找较容易。然而伴随互联网飞速的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的鼻祖,是1990年由蒙特利尔大学学生AlanEmtage发明的Archie。虽然当时WorldWideWeb还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan想到了开

7、发一个可以以文件名查找文件的系统,于是便有了Archie。Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达SystemComputingServices大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。当时,“机器人”一词在编程者中非常流行。电脑“机器人”是指某个能以人类无

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。