欢迎来到天天文库
浏览记录
ID:33394463
大小:3.20 MB
页数:103页
时间:2019-02-25
《基于hadoop的日志统计分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文(工程硕士)基于Hadoop的日志统计分析系统的设计与实现THEDESIGNANDIMPLEMENTATIONOFLOGSTATISTICSANALYSISSYSTEMBASEDONHADOOP朱斌哈尔滨工业大学2013年9月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于Hadoop的日志统计分析系统的设计与实现硕士研究生:朱斌导师:王宇颖教授副导师:刘晓飞技术总监申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2013年9月授予学位单位:哈尔
2、滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFLOGSTATISTICSANALYSISSYSTEMBASEDONHADOOPCandidate:ZhuBinSupervisor:ProfessorWangYuyingAssociateSupervisor:LiuXiaofeiTechnicalDirectorAcademicDegreeApplie
3、dfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:September,2013Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着互联网的发展,网络数据呈现指数级的增长,IDC数据表明,全球企业数据正以55%的速度逐年增长,大数据中蕴含着巨大的商业价值,引起了企业的广泛关注,然而,大数
4、据给数据的同步、存储、和数据统计分析带来了一定的问题和困难,现有的工具逐渐无法有效的处理这些问题。Google首先推出了MapReduce用来应对其对大数据处理的需求。Hadoop是开源版本的MapReduce,并逐渐成为许多互联网公司基础计算平台的一个核心部分。本文旨在实现基于Hadoop的日志统计分析系统。本文在对此系统进行需求分析的基础上,设计了以Hadoop、HBase集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志同步、统计分析作业定制、任务调度、数据查询四大功能。日志同步提供数据从不同数
5、据源到Hadoop集群的数据收集、聚合和移动,以便数据的分布式存储;统计分析作业的定制支持MapReduce、Streaming、Hive三种不同类型的作业,满足对统计分析多样性的需求;任务调度对所有用户提交的作业进行统一管理和调度。数据查询对存储在集群中的数据提供多种查询方式。本文综合使用了Hadoop生态圈的各种开源技术,包括FlumeNG、Sqoop、HDFS、MapReduce、Hive、HBase,从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用Hadoop进行日志统计分析的典型流程
6、和技术。本文使用开发语言Java和shell,开发工具为EclipseIDE,VIM,Hadoopeclipse-plugin。在多台CentOS机器之上搭建Hadoop集群,进行分布式存储和计算。用户通过统计分析系统进行日志同步、统计分析任务提交和调度、结果查询等操作。关键词:大数据;Hadoop;MapReduce;日志统计分析-I-哈尔滨工业大学工程硕士学位论文AbstractWiththedevelopmentofInternet,thenetworkdataisgrowingexponentially.IDCda
7、tashowsthattheglobalenterprisedatahasbeenincreasingatarateof55%.Thebigdatacontainsenormouscommercialvalues,causingwidespreadconcernintheenterprises.However,bigdataalsobringssomeproblemsanddifficultiestothedatasynchronization,storage,andstatisticalanalysisofdata,th
8、eexistingtoolscan'teffectivelydealwiththeseissues.GooglewasthefirsttopublicizeMapReduce-asystemtheyhadusedtoscaletheirdataprocessingneeds.Hadoopisanopen
此文档下载收益归作者所有