欢迎来到天天文库
浏览记录
ID:35658513
大小:945.50 KB
页数:60页
时间:2019-04-07
《毕业论文--基于Hadoop的大数据应用系统研发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、HUNANUNIVERSITY毕业论文论文题目基于Hadoop的大数据应用系统研发学生姓名学生学号专业班级自动化1101学院名称电气与信息工程学院指导老师学院院长2015年5月23日III湖南大学毕业设计(论文)第页摘要随着互联网的的快速发展和普及,移动互联网的兴起和物联网的出现,海量的数据来随之而来,不可否认,当今社会已经离不开数据。在追求计算速度的时代,人们更看重的是如何让计算机跑得更快,而当摩尔定律的瓶颈即将来临和海量数据的出现之际,更快地处理数据已经不仅仅是意味着让计算机运行地更快,让更多的计算机能同时处理数据已经成为更好的解决方案。而在数据的处理过程中
2、,数据的存储管理和计算的分配无疑是其中的重点。Hadoop作为一个开源的分布式系统基础框架,最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。对此我对Hadoop进行研究,以构建伪分布式的方式搭建Hadoop平台并实现文本处理功能。关键字:Hadoop,HDFS,MapReduce,文本处理Hadoop-basedbigdataapplicationsystemdevelopmentIII湖南大学毕业设计(论文)第页AbstractWiththeInternet'srapiddevelopm
3、entandpopularization,theemergenceoftheinternetofthingsandtheriseofmobileInternet,vastamountsofdatacomestotheattendant.undeniable,intoday,society,wecannotlivewithoutdata.Inthepursuitofspeedofcalculationtimes,peoplepaymoreattentiontomakeacomputerrunfaster,butwhenthereisthebottleneckoft
4、heMoore'slawupcomingandtheemergenceofmassdataontheoccasion,fasterprocessingofthedatahasnotjustmeanttoletthecomputerrunmorequickly,sothatmorecomputerscanhandlethedataithastobeabettersolution.Andintheprocessdata,storagemanagementanddistributiondatacomputingisundoubtedlyoneofthekey.Hado
5、opdistributedsystemasthebasisforanopensourceframework,thecoreofthedesignisHDFSandMapReduce.HDFSprovidesstorageofmassdata,theMapReduceprovidescalculationsforthemassdata.SoIdidsomeresearchonHadoopandbuildpseudo-distributedHadoopplatformtoimplementtextprocessingfunctions.KeyWords:Hadoop
6、,HDFS,MapReduce,textprocessing目录III湖南大学毕业设计(论文)第页第一章绪论11.1课题背景及目的11.2国内外研究状况21.3设计和研究方法31.4设计过程和研究内容3第二章Hadoop框架42.1Hadoop构造模块42.2Hadoop平台搭建52.3HDFS92.3.1HDFS的设计92.3.2HDFS的数据流102.3.3序列化与反序列化112.4MapReduce122.4.1MapReduce工作机制122.4.2MapReduce中的类型与格式152.5Hadoop性能调优15第三章文本处理163.1输入文件内容及输
7、入输出文件路径173.2单词计数213.3Grep实现223.4文档倒排索引233.5单词共现25第四章结论27致谢27参考文献28附录程序源代码2856湖南大学毕业设计(论文)第页第一章绪论1.1课题背景及目的在计算机和互联网经过了几十年的快速发展,数字化已经开始在全球快速普及。文字,声音,图像全都转化为计算机可以存储和利用的数据,很难想像有什么不能转化为数据。特别是在移动互联网的爆炸性增长和物联网开始出现之时,数据以指数的形式增长,面对着如此海量的数据,过去的人们是难以想像的,而在今天,处理如此海量的数据也并非易事。面对海量数据,我们首先要考虑的便是数据的存
8、储问题,分布式存储已经是
此文档下载收益归作者所有