hadoop中海量日志文件的处理分析

hadoop中海量日志文件的处理分析

ID:33739050

大小:4.37 MB

页数:76页

时间:2019-02-28

hadoop中海量日志文件的处理分析_第1页
hadoop中海量日志文件的处理分析_第2页
hadoop中海量日志文件的处理分析_第3页
hadoop中海量日志文件的处理分析_第4页
hadoop中海量日志文件的处理分析_第5页
资源描述:

《hadoop中海量日志文件的处理分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、申请上海交通大学硕士学位论文Hadoop中海量日志文件的处理分析学校:上海交通大学院系:信息安全工程学院班级:Z1003622学号:1100362034工程硕士生:朱光耀工程领域:计算机技术导师Ⅰ:宦飞(副教授)导师Ⅱ:邱梓华(副研究员)上海交通大学信息安全工程学院2013年6月ADissertationSubmittedtoShanghaiJiaoTongUniversityfortheDegreeofEngineeringMasterTHEPROCESSINGANDANALYZINGOFTHEMASSIVELOGFILESINHADOOPAuthor:Z

2、huGuangYaoSpecialty:ComputerTechnologyAdvisorⅠ:Prof.HuanFeiAdvisorⅡ:Prof.QiuZiHuaSchoolofInformationSecurityEngineeringShanghaiJiaoTongUniversityShanghai,P.R.ChinaJune10,2013上海交通大学工程硕士学位论文摘要Hadoop中海量日志文件的处理分析摘要当今社会信息化建设日益增多,数据的飞速增长造成了传统的数据库模式无法满足目前很多处理巨型规模的数据的需求。随着近年来分布式数据库的推广,分布式文

3、件系统的技术革新,Hadoop系统成为了应用范围十分广泛的集群式数据文件处理系统。其主要组成部分包括HDFS(HadoopDistributedFileSystem)和MapReduce。在处理分析海量文件时,Hadoop的作用更是由许多大型企业的集群化数据应用得以验证。但是,Hadoop在处理海量小文件时,会出现NameNode(名称节点)占用率高和无法高效访问的问题。海量元数据的处理极其消耗内存,海量小文件堆积造成的Map任务处理等待时间过长等问题都急需找出解决办法,以支持Hadoop快速处理海量小文件。目前在实际应用中,涉及的需管理的各类大型系统有二三

4、十个,每天都会在各个系统的日志服务器内产生海量的日志文件。大型系统中的海量日志文件既小又多,使得管理过程中花销了大量的硬件成本和网络资源。因此,考虑选用Hadoop系统来统一管理分析这些海量的日志文件。本文希望通过找出有效的处理分析海量日志文件的方法,以弥补Hadoop在这方面存在的缺陷。基于这个目的,开展了本次研究。本文重点研究分析了以下内容:1)针对处理海量日志文件的各种手段、如合并、建索引、分块存储、相邻堆放等步骤提出可行的方法,主要考虑的是节省索引检索的时间,降低节点间的通信花销。第I页上海交通大学工程硕士学位论文摘要2)针对日志文件的时间特征,对海

5、量日志文件进行选取时间段的批量更新、删除,期望得到最优效果;提高Hadoop系统对日志更新操作的响应速度。3)寻找海量日志文件备份的方法及实施方式,并根据优缺点及相关实验比较,寻找最佳的备份方案,降低系统的负担。4)采用两套运行在不同集群的Hadoop系统作为实验测试的环境,通过C#语言设计了包括日志过滤、数据比对、时间试验等多个实验环节,验证本文所提方法的可行性和优势。为Hadoop系统处理分析海量日志文件提供有效的方法。研究表明,本文采用的索引方法能有效提高系统处理海量日志文件的速度,节省时间。合理的文件分块、堆放能极大提高处理的效率。通过选取时间段为特

6、征值,对海量日志文件批量更新、删除可有效缩短系统操作的时间。通过选用MongoDB作为海量日志文件备份的数据库,利用其强大的MapReduce功能可降低系统负担。关键词:Hadoop,海量日志文件,Trie树,索引,文件备份第II页上海交通大学工程硕士学位论文ABSTRACTTheprocessingandanalyzingofthemassivelogfilesinHadoopABSTRACTWiththeincreasingofToday'ssocietyinformatizationconstruction,therapidgrowthofdataca

7、usesthatatraditionaldatabasehasbeenunabletomeettheneedsofprocessinggiantscaledata.WiththepromotionofdistributeddatabaseandthetechnologicalinnovationofDistributedfilesysteminrecentyears,theHadoopsystemhasbeenusedinawiderangeofapplicationsofclusterdatadocumentprocessingsystem.Themain

8、componentsincludedareHDFS(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。