基于mapreduce的分布式聚类搜索引擎设计与实现

ID：34153814

大小：4.28 MB

页数：74页

时间：2019-03-04

资源描述：

《基于mapreduce的分布式聚类搜索引擎设计与实现》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、摘要摘要近几年来，互联网技术飞速发展，社交格局发生新变化，人们更多的依赖网络来表达自己的观点看法。这使得网络中的信息数量海量的增长，人们也越来越多的依赖网络来获取资料，而当前的集中式搜索引擎集在处理海量数据时效率低下，并且由于网络数据量的不断增大，搜索结果数量众多又呈线状罗列，有很多与用户无关的信息充斥在其中，加上现有搜索引擎有在获取不动态网页信息时的不足，使得用户不能在很短时间内定位到所要查询的信息。因此，能够使用户快速、准确、全面地获取到所要检索的信息对用户来说已是十分迫切的需求。为了解决用户在一般搜索引擎上无法迅速

2、定位所需的信息，以及集中式的搜索引擎在处理大数据集时效率低的问题。本文综合研究了搜索引擎，数据挖掘以及Hadoop分布式集群的相关内容，主要完成以下工作：1.设计并实现了一种基于分布式集群基础上的聚类搜索引擎，包括信息采集、信息预处理，对信息聚类处理和相应用户的检索需求展示检索结果。2.针对无法爬取全面信息的问题，本文基于元搜索引擎Nutch和脚本解释引擎Rhino，提出并设计了一种动静结合的网络爬取策略，可以在信息采集阶段全面的获取网络动态和静态网页信息。3.本文在聚类模块中对于Canopy-Kmeans聚类算法以及C

3、anopy-Kmeans基于最大最小原则的改进算法由串行运行实现了MapReduce的并行运行的模式，进而对检索结果进行聚类，同时也实现了Dirichlet和LDA等经典的聚类算法，对不同类型的信息库可选用不同的算法聚类，以达到相对较好的效果。4.在聚类标签生成的过程中，本文设计并实现的是自动产生和自定义结合的方式，使得聚类标签具有很好的可读性和合理性。5.在用户检索显示模块，本文用层次化的目录结构来显示搜索结果与聚类之间的关系，使得用户能够更高效更准确的对检索结果进行浏览。关键词：搜索引擎，聚类，分布式，Hadoop，

4、集群IABSTRACTABSTRACTInrecentyears,withtherapiddevelopmentofInternettechnology,socialstructurechanged,thenetworkismoredependedontoexpresstheirviewsandideas.Thenetworkinformationincreasedmassively.Meantime,thenetworkismoredependedontoobtaininformation.However,thecur

5、rentsetofcentralizedsearchenginesisinefficientwhendealingwithhugeamountsofdata.What’sworse,duetothenetworkdataisincreasing,largenumberofsearchresultsarelistandlinearly,withvastamountofirrelevantinformationtotheuserinwhichflooding,moreovertheexistingsearchenginesh

6、avelessaccesstonetworkinformation.Inaveryshortperiodoftime,theusercannotnavigatetotheinformationyouwanttoquery.Thus,enablinguserstoquickly,accuratelyandcomprehensivelyaccesstotheinformationtoberetrievedforuserswillbeveryurgentneeds.Inordertosolvetheusercannotquic

7、klylocatethedesiredinformationonthegeneralsearchengines,aswellastheinefficientcentralizedsearchengineswhendealingwithhugeamountsofdata.Inthisthesis,acomprehensivestudyoftherelevantcontentsearchengine,datamininganddistributedHadoopclusters,mainlytocompletethefollo

8、wingtasks:1.Adistributedcluster-basedclusteringbasedonsearchenginedesignedandimplemented,includinginformationgathering,informationpreprocessing,andthedemandfor

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 74



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于mapreduce的分布式聚类搜索引擎设计与实现

基于mapreduce的分布式聚类搜索引擎设计与实现

相关文章

相关标签