基于nutch的搜索引擎的研究_胡涛

基于nutch的搜索引擎的研究_胡涛

ID:34071118

大小:199.66 KB

页数:3页

时间:2019-03-03

基于nutch的搜索引擎的研究_胡涛_第1页
基于nutch的搜索引擎的研究_胡涛_第2页
基于nutch的搜索引擎的研究_胡涛_第3页
资源描述:

《基于nutch的搜索引擎的研究_胡涛》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、计算机时代2007年第1期·57·基于Nutch的搜索引擎的研究胡涛,路红英(北京交通大学计算机与信息技术学院,北京100044)摘要:Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务。由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平。我们可以利用Nutch并结合中文分词技术来构建自己的中文搜索引擎。关键词:Nutch;Lucene;中文分词;评分机制0引言护索引库;随着计算机与互联网的日益普及与应用,在10年左右的⑶查询服务程序接收用户提交的查询

2、词条,加以分词与时间里互联网上至少产生了50亿的网页,浩如烟海的互联网过滤,在索引库及数据库中搜索相应的网页,并按照其内部评信息极大地促进了搜索引擎技术的蓬勃发展,诞生了我们熟知分算法对结果进行排序,返回结果。的Google、Yahoo、百度等一大批搜索引擎。据CNNIC统计,搜Nutch的工作流程如图1所示。索引擎已成为继电子邮件之后的第二大Web应用。虽然说使用搜索引擎的网民数目越来越多,但Web搜索引擎数目却在下降,并且很有可能进一步演变为被少数公司垄断,这显然不利于广大网民用户的利益。Nutch的诞生为我们提供了不同的选择,它具备现代商业搜索引擎的基本功能,并采用依据网

3、页本身的价值进行排序的算法,而不是商业引擎的竞价排名算图1Nutch的工作流程法,努力为用户提供最合理的搜索结果。2利用Nutch构建自己的搜索引擎1Nutch简介2.1安装并使用1.1LuceneNutch的下载地址为http://mirror.vmmatrix.net/apache/lucene/Nutch是以Lucene为基础实现的搜索引擎。Lucene是nutch,目前最新版本是nutch-0.7.2-tar.gz。配置条件作为参考可以Apache软件基金会Jakarta项目组的一个子项目,是一个用为:Tomcat5.0+JDK1.4.2+Nutch0.72。在Unix

4、/Linux下使用Nutch,java写的开放源代码的全文检索引擎工具包,即它不是一个完先要将下载文件解压缩到指定目录,然后运行#bin/nutch命令来整的全文检索引擎,而是一个全文检索引擎的架构,提供了完测试Nutch是否已正常安装。而在Windows下使用Nutch得先下整的查询引擎和索引引擎及部分文本分析引擎。Lucene可以对载Cygwin,Cygwin是一个在Windows平台上模拟运行Unix的任何数据做索引和搜索。不管数据源是什么格式,只要它能被环境。其他操作和在Unix/Linux平台下一样。转化为文字的形式,就可以被Lucene所分析利用。也就是说不以在Wi

5、ndows下安装为例。当安装并设置JDK(在C:jdk,管是Word、Html、PDF还是其他形式的文件只要可以从中抽取配置环境变量JAVA_HOME=C:jdk)、Tomcat(在C:Tomcat)和出文字形式的内容就可以被Lucene所用,就可以用Lucene对Cygwin(在C:Cygwin)后,在Cygwin的目录下建立一个用来它们进行索引及搜索。存放Nutch的目录,比如C:Cygwinhometestutch,然后在1.2NutchCygwin下输入命令tar-zxvfnutch-0.7.2.tar.gz将Nutch0.7.2Nutch是一个开放源

6、代码的Web搜索引擎,是以Lucene压缩包解压,运行Tomcat,在http://localhost:8080/manager/html为基础实现的搜索引擎应用程序,Lucene为Nutch提供了文本上传Nutch0.7.2根目录下的nutch-0.72.war文件,之后关闭索引和查询服务的API,而Nutch在Lucene的基础上实现了网Tomcat,将C:tomcatwebapps下的ROOT文件名改成其它的,页收集,因此Nutch在总体架构上分为网页收集、建立索引和比如ROOT1,将Nutch0.7.2之类的目录名改成ROOT。以上查询服务三个部分。步骤完成后,就可

7、以开始建立第一个搜索引擎了。⑴网页收集程序通过定期收集和增量收集方式从互联网2.2建立自己的第一个搜索引擎中抓取网页,并将原始网页建立索引存入数据库中;⑴在Cgywin下跳转至解压缩后的nutch0.7.2目录下,创⑵建立索引程序则从抓取过来的网页提取其中的URL、建一个取名为urls的文件,并输入我们要抓取的起始网页,如:标题、内容等关键词,将不同格式的数据源转换成其内部可http://www.bjtu.edu.cn。以识别的文件格式,然后建立倒排文件,即用文档中的关键⑵打开nutch-0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。