基于mapreduce计算模型的pagerank算法的优化与实现

基于mapreduce计算模型的pagerank算法的优化与实现

ID:35057702

大小:3.37 MB

页数:59页

时间:2019-03-17

基于mapreduce计算模型的pagerank算法的优化与实现_第1页
基于mapreduce计算模型的pagerank算法的优化与实现_第2页
基于mapreduce计算模型的pagerank算法的优化与实现_第3页
基于mapreduce计算模型的pagerank算法的优化与实现_第4页
基于mapreduce计算模型的pagerank算法的优化与实现_第5页
资源描述:

《基于mapreduce计算模型的pagerank算法的优化与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.-.r单位代码:10293密级:公开考典缘隹硕女讼曜论文题目:基于MaoReduce计算模型的化ge民ank’.算法的优化与要现,,1,--b-‘孝号1213043132姓名孟德蠢导师成卫青教授'''''■■'专业学位类别了掉硫十?::3i',了.类^今日制’-<■?L-'-f,j,中专业(领域)数据挖掘 ̄■.论文提交日期一二零:!^匹六]月南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及

2、取得的研巧成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。一与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。。畫'I研究生签名:舊袭逢日期;诫f,南京邮电大学学位论文使用授权声明本人授权南京邮电大学可W保留并向国家有关部n或机构送交论文的复印件和电子文挡;允许论文被查阁和借阅;可W将学位论文的全部或部分內容编入有关数据库进行检索;可(^

3、采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文…的内容相致。论文的公布(包括刊登)授权南京邮电大学研巧生院办理。涉密学位论文在解密后适用本授权书。研巧生签名;i德导师签名:畔日期:心、斗10為OptimizationandImplementationofPageRankUsingMapReduceThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByDexinMengSupervisor:P

4、rof.WeiqingChengApril2016摘要随着互联网数据量的激增,对网络中的海量数据的分析以及信息挖掘都面临着在计算能力和存储空间方面的瓶颈。针对此瓶颈,一般会选用MapReduce去处理,MapReduce是一个编程模型,主要用于在一个集群中用并行、分布式算法处理针对大型数据集的可并行化的问题。该模型主要融合了网格计算、并行化、分布式等技术,不仅降低了终端设备要求,而且提高了数据处理能力。本文旨在针对经典的基于链接关系的网页排名算法PageRank存在的不足,优化网页排名算法,并设计适于MapReduce分布式计算模型的优化算法。本文主要工作如下:(1)对Web结构挖

5、掘理论做了深入分析,并重点研究了PageRank算法、HITS算法、SALSA算法等以及这些算法之间的异同。(2)针对PageRank算法常见的四个缺点(主题漂移、权值平均化、偏重旧网页、兴趣无关性)分别提出了相应的解决方案,提出了优化算法I-PR,并通过实验证明使用它对网页进行排序的优越性。(3)设计了基于MapReduce计算模型的I-PR算法,解决了传统PageRank算法在串行化处理时效率低、存储困难等问题,并在Hadoop分布式平台上进行了实验验证与结果分析。关键字:链接分析算法,Hadoop,MapReduce,PageRankIAbstractWththesurgeo

6、fInternetdata,analysisandinformationminingofthehugeamountsofdatafacethebottleneckintermsofcomputingpowerandstoragespace.MapReduceisaprogrammingmodelforprocessingparallelizableproblemsacrosshugedatasetswithaparallel,distributedalgorithmonacluster.UsingMapReducecaneffectivelysolvetheproblemsface

7、dwhendealingwithmassivedata.Themodelmainlycombinesthegridcomputing,parallel,distributedandothertechnologies,whichnotonlyreducestherequirementsoftheterminalequipment,butalsoimprovestheabilityofdataprocessing.Aimingattheshortcomingsofthec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。