资源描述:
《基于nosql技术的搜索引擎设计与实现毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10200 学号:1272409029本科毕业论文基于NoSQL技术的搜索引擎设计与实现DesignandImplementationaSearchEnginebasedontheNoSQL摘要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情,建立搜索引擎就是解决这个问题的最好方法。搜索引擎,通常指的是收集了因特网数百亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有包含了该关键词的网页都将作为搜索结果被检索到并展示出来。本文主要是研究了搜索
2、引擎的基本实现。首先是数据抓取,基于Nutch爬虫系统的部署和实现,抓取命令执行完毕,后台会自动抓取网页,并存储到伪分布式HBase数据库中。其次为基于NoSQL的数据伪分布存储,为本文的实现重点,Hadoop,HBase,Zookeeper部署伪分布式环境,Nutch抓取到的数据存储到伪分布式NoSQL数据库HBase中,索引器为存储的数据进行索引。还有关键字的索引,目前关键字的索引工作做得很少,只是基本实现了数据的基本索引,没有真正实现倒排索引;但实现了以Http请求方式对外提供请求接口,做到组件低耦合,各组件维护提升自由独立。最后结果
3、列表的展示,基于Bootstrap,以及Java提供的Http接口,将以关键字向内部发起请求,获取数据展示于前端。此外引擎实现所需要的伪分布运行环境部署,配置好NoSQL伪分布与开发环境,调试环境,测试环境,这个是所有部件能正常运行的基础。本文基于NoSQL技术实现了一个搜索引擎构架,通过爬虫抓取网页数据,存储到伪分布式NoSQL数据库中,Java类实现对前端提供查询接口,PHP调用接口获取关键字索引的数据,并展示给用户。关键词:搜索引擎;网络爬虫;检索;NoSQL;HBaseAbstractNetworkisveryrichinresou
4、rces,buthowtosearchtheeffectiveinformationisadifficultthing,thebestwaytobuildasearchengineistosolvethisproblem.Searchengine,usuallyreferstothecollectionofthehundredsofbillionsofwebpageandwebpageineachword(i.e.keywords)index,full-textindexingdatabasesearchengine.Whenauserse
5、archesakeyword,allcontainthekeywordwebpagewillbeasthesearchresultsretrievedanddisplayed.Thispaperisabasicimplementationofthesearchengine.Thefirstisdatacapture,andimplementationoftheNutchcrawlersystembasedonthedeployment,grabthecommandhascompleted,thebackgroundwillbeautomat
6、icallycrawlthewebpage,andstoredinthepseudodistributedHBasedatabase.ThenNoSQLdatastoragebasedonpseudodistribution,asthekeypoint,therealizationoftheHadoop,HBase,Zookeeperdeploymentpseudodistributedenvironment,NutchtocapturedatastoragetothepseudodistributedNoSQLdatabaseinHBas
7、e.Theworkoftheindexingkeywordsislittle,butthebasicrealizationofthebasicindexdata;onotherhandinordertorealizetheHttprequestrequestinterfaceproviding,docomponentandlowcoupling,eachcomponentmaintenanceupgradefreeandindependent.Finally,theresultsdisplayofthelist,basedonBootstr
8、ap,HttpinterfaceandJava,willbekeytotheinternalrequest,getsthedatadisplayedonthefront.Inad