资源描述:
《基于mapreduce的分布式聚类搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、摘要摘要近几年来,互联网技术飞速发展,社交格局发生新变化,人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长,人们也越来越多的依赖网络来获取资料,而当前的集中式搜索引擎集在处理海量数据时效率低下,并且由于网络数据量的不断增大,搜索结果数量众多又呈线状罗列,有很多与用户无关的信息充斥在其中,加上现有搜索引擎有在获取不动态网页信息时的不足,使得用户不能在很短时间内定位到所要查询的信息。因此,能够使用户快速、准确、全面地获取到所要检索的信息对用户来说已是十分迫切的需求。为了解决用户在一般搜索引擎上无法迅速
2、定位所需的信息,以及集中式的搜索引擎在处理大数据集时效率低的问题。本文综合研究了搜索引擎,数据挖掘以及Hadoop分布式集群的相关内容,主要完成以下工作:1.设计并实现了一种基于分布式集群基础上的聚类搜索引擎,包括信息采集、信息预处理,对信息聚类处理和相应用户的检索需求展示检索结果。2.针对无法爬取全面信息的问题,本文基于元搜索引擎Nutch和脚本解释引擎Rhino,提出并设计了一种动静结合的网络爬取策略,可以在信息采集阶段全面的获取网络动态和静态网页信息。3.本文在聚类模块中对于Canopy-Kmeans聚类算法以及C
3、anopy-Kmeans基于最大最小原则的改进算法由串行运行实现了MapReduce的并行运行的模式,进而对检索结果进行聚类,同时也实现了Dirichlet和LDA等经典的聚类算法,对不同类型的信息库可选用不同的算法聚类,以达到相对较好的效果。4.在聚类标签生成的过程中,本文设计并实现的是自动产生和自定义结合的方式,使得聚类标签具有很好的可读性和合理性。5.在用户检索显示模块,本文用层次化的目录结构来显示搜索结果与聚类之间的关系,使得用户能够更高效更准确的对检索结果进行浏览。关键词:搜索引擎,聚类,分布式,Hadoop,
4、集群IABSTRACTABSTRACTInrecentyears,withtherapiddevelopmentofInternettechnology,socialstructurechanged,thenetworkismoredependedontoexpresstheirviewsandideas.Thenetworkinformationincreasedmassively.Meantime,thenetworkismoredependedontoobtaininformation.However,thecur
5、rentsetofcentralizedsearchenginesisinefficientwhendealingwithhugeamountsofdata.What’sworse,duetothenetworkdataisincreasing,largenumberofsearchresultsarelistandlinearly,withvastamountofirrelevantinformationtotheuserinwhichflooding,moreovertheexistingsearchenginesh
6、avelessaccesstonetworkinformation.Inaveryshortperiodoftime,theusercannotnavigatetotheinformationyouwanttoquery.Thus,enablinguserstoquickly,accuratelyandcomprehensivelyaccesstotheinformationtoberetrievedforuserswillbeveryurgentneeds.Inordertosolvetheusercannotquic
7、klylocatethedesiredinformationonthegeneralsearchengines,aswellastheinefficientcentralizedsearchengineswhendealingwithhugeamountsofdata.Inthisthesis,acomprehensivestudyoftherelevantcontentsearchengine,datamininganddistributedHadoopclusters,mainlytocompletethefollo
8、wingtasks:1.Adistributedcluster-basedclusteringbasedonsearchenginedesignedandimplemented,includinginformationgathering,informationpreprocessing,andthedemandfor