毕业论文--基于Hadoop的大数据应用系统研发

毕业论文--基于Hadoop的大数据应用系统研发

ID:35658513

大小:945.50 KB

页数:60页

时间:2019-04-07

毕业论文--基于Hadoop的大数据应用系统研发_第1页
毕业论文--基于Hadoop的大数据应用系统研发_第2页
毕业论文--基于Hadoop的大数据应用系统研发_第3页
毕业论文--基于Hadoop的大数据应用系统研发_第4页
毕业论文--基于Hadoop的大数据应用系统研发_第5页
资源描述:

《毕业论文--基于Hadoop的大数据应用系统研发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、HUNANUNIVERSITY毕业论文论文题目基于Hadoop的大数据应用系统研发学生姓名学生学号专业班级自动化1101学院名称电气与信息工程学院指导老师学院院长2015年5月23日III湖南大学毕业设计(论文)第页摘要随着互联网的的快速发展和普及,移动互联网的兴起和物联网的出现,海量的数据来随之而来,不可否认,当今社会已经离不开数据。在追求计算速度的时代,人们更看重的是如何让计算机跑得更快,而当摩尔定律的瓶颈即将来临和海量数据的出现之际,更快地处理数据已经不仅仅是意味着让计算机运行地更快,让更多的计算机能同时处理数据已经成为更好的解决方案。而在数据的处理过程中

2、,数据的存储管理和计算的分配无疑是其中的重点。Hadoop作为一个开源的分布式系统基础框架,最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。对此我对Hadoop进行研究,以构建伪分布式的方式搭建Hadoop平台并实现文本处理功能。关键字:Hadoop,HDFS,MapReduce,文本处理Hadoop-basedbigdataapplicationsystemdevelopmentIII湖南大学毕业设计(论文)第页AbstractWiththeInternet'srapiddevelopm

3、entandpopularization,theemergenceoftheinternetofthingsandtheriseofmobileInternet,vastamountsofdatacomestotheattendant.undeniable,intoday,society,wecannotlivewithoutdata.Inthepursuitofspeedofcalculationtimes,peoplepaymoreattentiontomakeacomputerrunfaster,butwhenthereisthebottleneckoft

4、heMoore'slawupcomingandtheemergenceofmassdataontheoccasion,fasterprocessingofthedatahasnotjustmeanttoletthecomputerrunmorequickly,sothatmorecomputerscanhandlethedataithastobeabettersolution.Andintheprocessdata,storagemanagementanddistributiondatacomputingisundoubtedlyoneofthekey.Hado

5、opdistributedsystemasthebasisforanopensourceframework,thecoreofthedesignisHDFSandMapReduce.HDFSprovidesstorageofmassdata,theMapReduceprovidescalculationsforthemassdata.SoIdidsomeresearchonHadoopandbuildpseudo-distributedHadoopplatformtoimplementtextprocessingfunctions.KeyWords:Hadoop

6、,HDFS,MapReduce,textprocessing目录III湖南大学毕业设计(论文)第页第一章绪论11.1课题背景及目的11.2国内外研究状况21.3设计和研究方法31.4设计过程和研究内容3第二章Hadoop框架42.1Hadoop构造模块42.2Hadoop平台搭建52.3HDFS92.3.1HDFS的设计92.3.2HDFS的数据流102.3.3序列化与反序列化112.4MapReduce122.4.1MapReduce工作机制122.4.2MapReduce中的类型与格式152.5Hadoop性能调优15第三章文本处理163.1输入文件内容及输

7、入输出文件路径173.2单词计数213.3Grep实现223.4文档倒排索引233.5单词共现25第四章结论27致谢27参考文献28附录程序源代码2856湖南大学毕业设计(论文)第页第一章绪论1.1课题背景及目的在计算机和互联网经过了几十年的快速发展,数字化已经开始在全球快速普及。文字,声音,图像全都转化为计算机可以存储和利用的数据,很难想像有什么不能转化为数据。特别是在移动互联网的爆炸性增长和物联网开始出现之时,数据以指数的形式增长,面对着如此海量的数据,过去的人们是难以想像的,而在今天,处理如此海量的数据也并非易事。面对海量数据,我们首先要考虑的便是数据的存

8、储问题,分布式存储已经是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。