jsp1066 web上基于内容的搜索引擎实现2

jsp1066 web上基于内容的搜索引擎实现2

ID:7782088

大小:190.50 KB

页数:4页

时间:2018-02-25

jsp1066 web上基于内容的搜索引擎实现2_第1页
jsp1066 web上基于内容的搜索引擎实现2_第2页
jsp1066 web上基于内容的搜索引擎实现2_第3页
jsp1066 web上基于内容的搜索引擎实现2_第4页
资源描述:

《jsp1066 web上基于内容的搜索引擎实现2》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、摘要网络中的资源非常丰富,但是如何有效的搜索自己需要的信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法,它可以帮助用户快速定位自己所要查询的资源。但是现在大部分搜索引擎都不是开源免费的,因此本文尝试设计一个简单的搜索引擎,并可以扩展到企业、学校内部网络实现非结构化文档的内容检索。本文首先介绍了关于这次设计所需要的关键技术Lucene、Ajax、服务器推等,以及它们的工作原理。然后在此基础之上分析设计一个搜索引擎的框架,主要有三个大模块组成:爬虫模块、索引模块和搜索模块,并描绘了三个模块之间关系图,实现模块间的低耦合度。并对三个模块进了分析、设计和实现。首先,爬虫模块是建立网页库

2、和索引库的基础,因此高效灵活的数据抓取会为资源库的建立做下铺垫;其次,索引模块是实现高效数据检索的基础,合理文档内容索引,以及索引数据的存储结构,会直接影响查询速度,进而会影响用户体验。因此合理的设计非常重要,基于此本系统采用了Lucene实现内容的倒排序索引,比传统的索引效率高;最后,搜索模块是检索用户需求数据的模块,通过数据的分页显示减少了服务器和客户端数据的传输量,并实现类似GoogleSuggest效果提高用户体验。文章最后总结了系统整体设计和实现,并对未来的扩展做了分析,主要是如何使用基于MapRedue的分布式库Hadoop实现分布式爬取、索引和检索,以及如何使用内存数据库建立效

3、率更高的URL库和线程池,提高爬虫网页抓取效率。关键词:Lucene,服务器推,爬虫,索引,搜索,MapReduce,Hadoop,内存数据库I目录第1章绪论11.1课题背景11.2实现基于内容检索需要解决的问题11.3课题研究的目的和意义1第2章系统采用的关键技术22.1Lucene库简介22.2J2EE技术介绍32.3Ajax技术及ExjJS库简介42.4服务器推技术及Pushlet库5第3章系统总体设计63.1总体构架63.2各个模块功能分析63.3小结7第4章主要功能模块设计及实现84.1爬虫功能模块的设计与实现84.1.1网络爬虫介绍84.1.2网络爬虫功能需求94.1.3网络爬虫

4、系统结构94.1.4网络爬虫算法104.1.5网络爬虫系统实现114.2索引功能模块的设计与实现154.2.1Lucene索引介绍154.2.2倒排索引原理164.2.3中文分词164.2.4网页资源文本分析184.2.4索引模块整体构架184.2.5索引模块实现194.3搜索功能模块的设计与实现2214.3.1介绍信息查询概述224.3.2查询基本流程234.3.3查询结果显示234.3.4Lucene搜索介绍244.3.5搜索模块实现244.4小结30结论31参考文献32致谢331图4.4爬虫后台实现效果图4.10查询结果重要提示:本论文由大学论文网www.wnwu.com毕业论文下载网

5、:www.fxfl.cn提供如果需要详细内容请与QQ:4991024联系重要提示:本论文由大学论文网www.wnwu.com毕业论文下载网:www.fxfl.cn提供如果需要详细内容请与QQ:4991024联系1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。