基于nosql技术的搜索引擎设计与实现毕业论文

基于nosql技术的搜索引擎设计与实现毕业论文

ID:12050791

大小:683.50 KB

页数:33页

时间:2018-07-15

基于nosql技术的搜索引擎设计与实现毕业论文_第1页
基于nosql技术的搜索引擎设计与实现毕业论文_第2页
基于nosql技术的搜索引擎设计与实现毕业论文_第3页
基于nosql技术的搜索引擎设计与实现毕业论文_第4页
基于nosql技术的搜索引擎设计与实现毕业论文_第5页
资源描述:

《基于nosql技术的搜索引擎设计与实现毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10200        学号:1272409029本科毕业论文基于NoSQL技术的搜索引擎设计与实现DesignandImplementationaSearchEnginebasedontheNoSQL摘要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情,建立搜索引擎就是解决这个问题的最好方法。搜索引擎,通常指的是收集了因特网数百亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有包含了该关键词的网页都将作为搜索结果被检索到并展示出来。本文主要是研究了搜索

2、引擎的基本实现。首先是数据抓取,基于Nutch爬虫系统的部署和实现,抓取命令执行完毕,后台会自动抓取网页,并存储到伪分布式HBase数据库中。其次为基于NoSQL的数据伪分布存储,为本文的实现重点,Hadoop,HBase,Zookeeper部署伪分布式环境,Nutch抓取到的数据存储到伪分布式NoSQL数据库HBase中,索引器为存储的数据进行索引。还有关键字的索引,目前关键字的索引工作做得很少,只是基本实现了数据的基本索引,没有真正实现倒排索引;但实现了以Http请求方式对外提供请求接口,做到组件低耦合,各组件维护提升自由独立。最后结果

3、列表的展示,基于Bootstrap,以及Java提供的Http接口,将以关键字向内部发起请求,获取数据展示于前端。此外引擎实现所需要的伪分布运行环境部署,配置好NoSQL伪分布与开发环境,调试环境,测试环境,这个是所有部件能正常运行的基础。本文基于NoSQL技术实现了一个搜索引擎构架,通过爬虫抓取网页数据,存储到伪分布式NoSQL数据库中,Java类实现对前端提供查询接口,PHP调用接口获取关键字索引的数据,并展示给用户。关键词:搜索引擎;网络爬虫;检索;NoSQL;HBaseAbstractNetworkisveryrichinresou

4、rces,buthowtosearchtheeffectiveinformationisadifficultthing,thebestwaytobuildasearchengineistosolvethisproblem.Searchengine,usuallyreferstothecollectionofthehundredsofbillionsofwebpageandwebpageineachword(i.e.keywords)index,full-textindexingdatabasesearchengine.Whenauserse

5、archesakeyword,allcontainthekeywordwebpagewillbeasthesearchresultsretrievedanddisplayed.Thispaperisabasicimplementationofthesearchengine.Thefirstisdatacapture,andimplementationoftheNutchcrawlersystembasedonthedeployment,grabthecommandhascompleted,thebackgroundwillbeautomat

6、icallycrawlthewebpage,andstoredinthepseudodistributedHBasedatabase.ThenNoSQLdatastoragebasedonpseudodistribution,asthekeypoint,therealizationoftheHadoop,HBase,Zookeeperdeploymentpseudodistributedenvironment,NutchtocapturedatastoragetothepseudodistributedNoSQLdatabaseinHBas

7、e.Theworkoftheindexingkeywordsislittle,butthebasicrealizationofthebasicindexdata;onotherhandinordertorealizetheHttprequestrequestinterfaceproviding,docomponentandlowcoupling,eachcomponentmaintenanceupgradefreeandindependent.Finally,theresultsdisplayofthelist,basedonBootstr

8、ap,HttpinterfaceandJava,willbekeytotheinternalrequest,getsthedatadisplayedonthefront.Inad

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。