基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc

基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc

ID:10845189

大小:112.00 KB

页数:8页

时间:2018-07-08

基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc_第1页
基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc_第2页
基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc_第3页
基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc_第4页
基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc_第5页
资源描述:

《基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析-开提报告.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、厦门大学软件学院《毕业设计(论文)》开题报告学生姓名班级学号0指导教师姓名职称所在单位厦门大学软件学院毕业设计(论文)题目基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析毕业设计(论文)的目标:一.毕业设计的整体目标1.通过研读nutch的流程代码,了解搜索引擎的基本工作原理。2.熟悉掌握现在比较流行的WEB开发技术,以及搜索引擎的设计流程。3.开发一个具有基本搜索功能的搜索引擎。二.搜索引擎-搜索引擎技术的相关设计与分析1.在Nutch的基础上构建网站搜索引擎2.索引模块的相关设计3.搜索结果显示的实现4.Nutch的Web前端美化:加入A

2、jax技术丰富用户体验,搜索部分模块的界面设计实现方法:一.基本环境开发工具:Eclipse3.2;Cygwin;Tomcat5.5;开发语言:JAVAJDK1.5开发平台:WindowsXP二.模块划分1搜索显示界面设计模块设计一个基于WEB的搜索显示界面2索引设计模块通过对爬虫从网页上爬去下来的内容和标题进行索引3搜索显示实现模块爬虫通过访问网页连接数据库里的网址链接,实现文本和网页内链接的内容抓取,并把结果按与关键字相关的网页显示4更新网页链接数据库模块把网页内链接的网址添加入网页链接数据库5Nutch的Web前端美化模块采用ajax技术方便用户更快速方便的查询

3、和搜索三.模块关系框图如下前台搜索界面显示模块后台索引设计模块数据库访问模块搜索结果显示实现模块Nutch的Web前端美化模块搜索界面获取网页内容建立相应的索引库获取关键字分析并显示结果加入Ajax技术丰富界面系统流程图:前台后台五.界面模块设计1.采用轻量级GUI组件,如Swing、SWT等进行界面设计,尽量消除用户界面在不同浏览器(IE,Firefox,Safari,Opera)下的平台显示的一致性。2.使用Ajax技术,提高用户体验度,使用户能够更快速地搜索到所需要的东西。六.基于nutch+lucene搜索引擎的搭建1.Lucene简介Lucene是Apach

4、e软件基金会Jakarta项目组的一个子项目,是一个用java写的开放源代码的全文检索引擎工具包。它不是一个完整的全文检索引擎,二十一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎及部分文本分析引擎。2.NutchNutch是一个开源的Java实现的搜索引擎。是以Lucene为基础实现的搜索引擎应用程序。Lucene为Nutch提供了文本索引和查询服务的API,而Nutch在Lucene的基础上实现了网页收集。其工作流程如下图所见:3.爬虫(1)网络爬虫:网络爬虫是一个自动提取网页的程序,它为搜索引擎从Web上下载网页,是搜索引擎的重要组成部分。通用网络爬虫从一

5、个或若干初始网页的URL开始,获得初始网页上的URL列表;在抓取网页的过程中,不断从当前页面上抽取新的URL放入待爬行队列,直到满足系统的停止条件。(2)主题网络爬虫:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,对于主题网络爬虫来说,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。七.开发前的准备配置好所有的需要

6、的开发工具以及所需要的开发平台,通过研读nutch的基本流程代码,了解搜索引擎的基本原理;掌握Map-Reduce体系结构;学习AJAX技术。时间进度安排:2008年2月25日-2008年3月15日查阅相关文献资料,确定功能模块的划分。2008年3月16日-2008年3月31日征求导师意见后进一步改进,整理提交毕业设计开题报告。2008年4月1日-2008年4月30日对必要技术及工具进一步了解学习,完成后台代码的编写。2008年5月1日-2008年5月10日完成前台界面的代码的编写从而基本完成项目的主体开发。2008年5月11日-2008年5月20日单元测试,完善项目

7、功能。2008年5月21日-2008年5月26日完成所有文档的编写,进行系统测试。2008年5月27日-2008年6月2日项目文档终稿完成,提交毕业论文,准备毕业答辩。指导教师审核意见:校内指导教师签名:2008年月日毕业论文任务书题目:基于nutch+lucene搜索引擎的搭建--搜索引擎技术的相关设计与分析目标要求:1.在Nutch的基础上构建网站搜索引擎2.索引模块的相关设计3.搜索结果显示的实现4.Nutch的Web前端美化:加入Ajax技术丰富用户体验,搜索部分模块的界面设计支持条件:操作系统:WindowsXP开发工具:Eclipse3.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。