欢迎来到天天文库
浏览记录
ID:37065488
大小:712.55 KB
页数:82页
时间:2019-05-16
《基于MapReduce并行处理框架的大数据处理系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、—————————————————————基于MapReduce并行处理框架的大数据处理系统的研究—————————————————————ResearchonBigDataProcessingSystemBasedonMapReduceParallelProcessingFramework作者姓名:李志斌领域(方向):电子与通信工程指导教师:李莉副教授类别:工程硕士答辩日期:年月日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的
2、复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕士学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:2018年月日《中国优秀博硕士学位论文全文数据库》投稿声明研究生院:
3、本人同意《中国优秀博硕士学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位论文评价数据库》和CNKI系列数据库中使用,同意按章程规定享受相关权益。论文级别:■硕士□博士学科专业:通信工程论文题目:基于MapReduce并行处理框架的大数据处理系统的研究作者签名:指导教师签名:2018年月日作者联系地址(邮编):吉林省长春市宽城区青岛路8号1
4、30021作者联系电话:18643192912摘要基于MapReduce并行处理框架的大数据处理系统的研究近年来,随着科技的进步与发展,数据采集终端数量的上升,人们不可避免的会在日常工作与生活当中面对数量庞大、种类繁多的数据信息。人们如何处理与利用这些海量数据也决定了人们在生产生活中的决策行为将不再是基于过去的经验与直觉,而是转变为通过对相应数据进行数据处理,从而得到在海量数据指导下的策略选择。大数据处理系统作为大数据技术中的重要研究内容,通过不同数据架构以及数据处理算法来满足不同业务类型的大数据存储以及处
5、理要求,具有重要的研究意义。现有成果从不同方面对大数据的存储以及处理提出了不同的解决方法,但仍有不足。例如,大数据的数据量虽然巨大,但是针对某一产业或某一方面的大数据具有一定的数据特征,如今的数据处理系统并未充分利用这些特征,也无法利用大数据之间的特征关系进行数据处理,难以优化整个大数据处理系统。1.本文在对大数据处理系统的关键技术进行构想与研究的基础上,首先采用Hadoop架构来搭建系统实验平台。通过操作MapReduce模型预留出的Map映射函数接口完成针对数据采集终端数据的粗处理过程,再根据Map函数
6、的输出结果调用相应的Reduce函数完成大数据的规约化处理,从而挖掘出相应海量数据的数据特征。同时,利用MapReduce函数优化了大数据处理系统的整体存储性能,使得大数据信息的存储变得更加的合理、可靠。2.针对不同类型的大数据信息各自具有独特的数据特征的特点,本文将传统的基于内存的PageRank算法引入到基于MapReduce数据处理模型的大数据处理系统当中。针对数据处理中对于图数据以及高维数据的处理往往涉及多次迭代以及不同计算机之间的大量网络通信的缺点,通过合理划分子图,保证数据的迭代发生在图数据以及
7、多维数据被合理划分的子图内;以及合理确定内部节点和外部节点来避免不同计算机之间的数据通信发生在整个大数据整体上,从而降低网络通信所需要的带宽。同时,将基于内存的PageRank算法运用到多维数据和图数据的子图数据的多次迭代当中,从而保证了整个大数据处理系统既有普通PageRank算法的效率,也能够异步的扩展在不同系统的计算机实验平台上。3.本文采用两个大规模高维数据以及图数据集,分别是LiveJournal数据集I以及FaceBook数据集。LiveJournal数据集包含4847571个数据节点,6899
8、3773个数据边,LiveJournal数据集来源于网站www.livejournal.com。FaceBook数据集包含957359个数据节点和161933115条数据边。实验所用计算机均安装Ubuntu9.04,32位操作系统以及Java1.6和Hadoop0.20.2进行实验。实验结果表明,本文提出的大数据处理系统可以提高数据处理速度,降低系统所需通信带宽。关键词:大数据处理,Hadoop平台,MapRed
此文档下载收益归作者所有