基于hadoop的日志统计分析系统的设计与实现

基于hadoop的日志统计分析系统的设计与实现

ID:33394463

大小:3.20 MB

页数:103页

时间:2019-02-25

基于hadoop的日志统计分析系统的设计与实现_第1页
基于hadoop的日志统计分析系统的设计与实现_第2页
基于hadoop的日志统计分析系统的设计与实现_第3页
基于hadoop的日志统计分析系统的设计与实现_第4页
基于hadoop的日志统计分析系统的设计与实现_第5页
资源描述:

《基于hadoop的日志统计分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文(工程硕士)基于Hadoop的日志统计分析系统的设计与实现THEDESIGNANDIMPLEMENTATIONOFLOGSTATISTICSANALYSISSYSTEMBASEDONHADOOP朱斌哈尔滨工业大学2013年9月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于Hadoop的日志统计分析系统的设计与实现硕士研究生:朱斌导师:王宇颖教授副导师:刘晓飞技术总监申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2013年9月授予学位单位:哈尔

2、滨工业大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFLOGSTATISTICSANALYSISSYSTEMBASEDONHADOOPCandidate:ZhuBinSupervisor:ProfessorWangYuyingAssociateSupervisor:LiuXiaofeiTechnicalDirectorAcademicDegreeApplie

3、dfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:September,2013Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着互联网的发展,网络数据呈现指数级的增长,IDC数据表明,全球企业数据正以55%的速度逐年增长,大数据中蕴含着巨大的商业价值,引起了企业的广泛关注,然而,大数

4、据给数据的同步、存储、和数据统计分析带来了一定的问题和困难,现有的工具逐渐无法有效的处理这些问题。Google首先推出了MapReduce用来应对其对大数据处理的需求。Hadoop是开源版本的MapReduce,并逐渐成为许多互联网公司基础计算平台的一个核心部分。本文旨在实现基于Hadoop的日志统计分析系统。本文在对此系统进行需求分析的基础上,设计了以Hadoop、HBase集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志同步、统计分析作业定制、任务调度、数据查询四大功能。日志同步提供数据从不同数

5、据源到Hadoop集群的数据收集、聚合和移动,以便数据的分布式存储;统计分析作业的定制支持MapReduce、Streaming、Hive三种不同类型的作业,满足对统计分析多样性的需求;任务调度对所有用户提交的作业进行统一管理和调度。数据查询对存储在集群中的数据提供多种查询方式。本文综合使用了Hadoop生态圈的各种开源技术,包括FlumeNG、Sqoop、HDFS、MapReduce、Hive、HBase,从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用Hadoop进行日志统计分析的典型流程

6、和技术。本文使用开发语言Java和shell,开发工具为EclipseIDE,VIM,Hadoopeclipse-plugin。在多台CentOS机器之上搭建Hadoop集群,进行分布式存储和计算。用户通过统计分析系统进行日志同步、统计分析任务提交和调度、结果查询等操作。关键词:大数据;Hadoop;MapReduce;日志统计分析-I-哈尔滨工业大学工程硕士学位论文AbstractWiththedevelopmentofInternet,thenetworkdataisgrowingexponentially.IDCda

7、tashowsthattheglobalenterprisedatahasbeenincreasingatarateof55%.Thebigdatacontainsenormouscommercialvalues,causingwidespreadconcernintheenterprises.However,bigdataalsobringssomeproblemsanddifficultiestothedatasynchronization,storage,andstatisticalanalysisofdata,th

8、eexistingtoolscan'teffectivelydealwiththeseissues.GooglewasthefirsttopublicizeMapReduce-asystemtheyhadusedtoscaletheirdataprocessingneeds.Hadoopisanopen

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。