基于mapreduce的分布式聚类搜索引擎设计与实现

基于mapreduce的分布式聚类搜索引擎设计与实现

ID:34153814

大小:4.28 MB

页数:74页

时间:2019-03-04

基于mapreduce的分布式聚类搜索引擎设计与实现_第1页
基于mapreduce的分布式聚类搜索引擎设计与实现_第2页
基于mapreduce的分布式聚类搜索引擎设计与实现_第3页
基于mapreduce的分布式聚类搜索引擎设计与实现_第4页
基于mapreduce的分布式聚类搜索引擎设计与实现_第5页
资源描述:

《基于mapreduce的分布式聚类搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、摘要摘要近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当前的集中式搜索引擎集在处理海量数据时效率低下,并且由于网络数据量的不断增大,搜索结果数量众多又呈线状罗列,有很多与用户无关的信息充斥在其中,加上现有搜索引擎有在获取不动态网页信息时的不足,使得用户不能在很短时间内定位到所要查询的信息。因此,能够使用户快速、准确、全面地获取到所要检索的信息对用户来说已是十分迫切的需求。为了解决用户在一般搜索引擎上无法迅速

2、定位所需的信息,以及集中式的搜索引擎在处理大数据集时效率低的问题。本文综合研究了搜索引擎,数据挖掘以及Hadoop分布式集群的相关内容,主要完成以下工作:1.设计并实现了一种基于分布式集群基础上的聚类搜索引擎,包括信息采集、信息预处理,对信息聚类处理和相应用户的检索需求展示检索结果。2.针对无法爬取全面信息的问题,本文基于元搜索引擎Nutch和脚本解释引擎Rhino,提出并设计了一种动静结合的网络爬取策略,可以在信息采集阶段全面的获取网络动态和静态网页信息。3.本文在聚类模块中对于Canopy-Kmeans聚类算法以及C

3、anopy-Kmeans基于最大最小原则的改进算法由串行运行实现了MapReduce的并行运行的模式,进而对检索结果进行聚类,同时也实现了Dirichlet和LDA等经典的聚类算法,对不同类型的信息库可选用不同的算法聚类,以达到相对较好的效果。4.在聚类标签生成的过程中,本文设计并实现的是自动产生和自定义结合的方式,使得聚类标签具有很好的可读性和合理性。5.在用户检索显示模块,本文用层次化的目录结构来显示搜索结果与聚类之间的关系,使得用户能够更高效更准确的对检索结果进行浏览。关键词:搜索引擎,聚类,分布式,Hadoop,

4、集群IABSTRACTABSTRACTInrecentyears,withtherapiddevelopmentofInternettechnology,socialstructurechanged,thenetworkismoredependedontoexpresstheirviewsandideas.Thenetworkinformationincreasedmassively.Meantime,thenetworkismoredependedontoobtaininformation.However,thecur

5、rentsetofcentralizedsearchenginesisinefficientwhendealingwithhugeamountsofdata.What’sworse,duetothenetworkdataisincreasing,largenumberofsearchresultsarelistandlinearly,withvastamountofirrelevantinformationtotheuserinwhichflooding,moreovertheexistingsearchenginesh

6、avelessaccesstonetworkinformation.Inaveryshortperiodoftime,theusercannotnavigatetotheinformationyouwanttoquery.Thus,enablinguserstoquickly,accuratelyandcomprehensivelyaccesstotheinformationtoberetrievedforuserswillbeveryurgentneeds.Inordertosolvetheusercannotquic

7、klylocatethedesiredinformationonthegeneralsearchengines,aswellastheinefficientcentralizedsearchengineswhendealingwithhugeamountsofdata.Inthisthesis,acomprehensivestudyoftherelevantcontentsearchengine,datamininganddistributedHadoopclusters,mainlytocompletethefollo

8、wingtasks:1.Adistributedcluster-basedclusteringbasedonsearchenginedesignedandimplemented,includinginformationgathering,informationpreprocessing,andthedemandfor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。