面向在线日志云的海量数据分级归档机制-论文.pdf

面向在线日志云的海量数据分级归档机制-论文.pdf

ID:55640657

大小:355.36 KB

页数:4页

时间:2020-05-22

面向在线日志云的海量数据分级归档机制-论文.pdf_第1页
面向在线日志云的海量数据分级归档机制-论文.pdf_第2页
面向在线日志云的海量数据分级归档机制-论文.pdf_第3页
面向在线日志云的海量数据分级归档机制-论文.pdf_第4页
资源描述:

《面向在线日志云的海量数据分级归档机制-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年第8期文章编号:1009—2552(2014)08—0045—04中图分类号:TP311.1文献标识码:A面向在线日志云的海量数据分级归档机制杨锋英,刘会超(1.黄淮学院信息工程学院,河南驻马店463000;2.武汉大学计算机学院,武汉430072)摘要:传统日志系统和基于Hadoop的离线日志系统在分析海量日志时都具有时延长、效率低等弊端。为构建新的基于Hadoop的在线日志系统,提出了新的数据分级归档机制,用以管理海量日志数据并形成分级优化的存储文件结构。实验结果表明该机制具有良好的可扩展性,可以有效存储海量日志数据;同时,它还有助于加

2、快系统的数据处理速度,缩短系统的处理响应时间,使其满足在线处理的要求。关键词:云计算;分级归档;海量数据;日志云;在线处理HierarchicalarchivingmechanismofbigdataforonlinelogcloudYANGFeng.ying.LIUHui。chaoI,(1.SchoolofInformationEngineering,HuanghuaiUniversity,Zhumadian463000,HenanProvince,China;2.SchoolofComputer,WuhanUniversity,Wuhan4300

3、72,China)Abstract:ThetraditionalandtheofflineHadoop—basedlogsystemallhavethedrawbacksoflongerprocessingdelayandlowerefficiencywhenprocessingthemassivelogdata.InordertobuildthenewonlineHadoop—basedlogsystem,thispaperintroducesanewhierarchicaldataarchivingmechanism,whichusedtoman

4、agethelargeamountsoflogdataandformhierarchicalandoptimizedstoragefilestructures.Theexperimentalresultsshowthatthemechanismhasgoodscalabilityandcanefectivelystoremassiveamountsoflogdata.Meanwhile,italsohelpstoacceleratethedataprocessingspeed,shortenthesystemresponsetime,whichcan

5、meettherequirementsofonlineprocessing.Keywords:cloudcomputing;hierarchicalfilearchiving;bigdata;logcloud;onlineprocessing0引言及时接收众多13志源发来的流式日志数据,并将其随着大数据处理的兴起,基于Hadoop的应用和存储到日志文件中。在HDFS文件系统中,若保存研究13益增多。传统手段处理大型网络的日志的文件没有关闭,则用户无法查询到该文件的存在。数据存在很多局限,于是基于Hadoop平台的13志系这就要求在线日志系统必须及时切

6、割接收的日志统便应运而生一。J。但当前基于Hadoop的13志系流,将短时间内接收的少量日志信息形成独立的日统多为离线式,13志数据往往被提前归并、清洗成结志存储文件。对于一个海量13志系统,其可存储的构清晰的大数据文件,处理系统只需要关注业务处数据量通常可达数十TB或者PB级别,由此将产理流程,不涉及日志文件管理的问题,对处理响应时生数量众多的小文件。由于Hadoop是为大数据处间的要求也不高。离线日志处理主要用于系统的事理而设计的,其对文件的存储以块为单位进行(默后审计或知识挖掘等,若要通过日志分析支持系统认的块大小为64M),对小于块大小的文件

7、仍按一当前的运行管理工作,需要构建在线13志处理系统。收稿日期:2013—02—19构建基于Hadoop的在线日志系统,关键问题是基金项目:河南省科技攻关汁划项目(122102310474);驻马店市科技发展订一划项目(】1314)要对用户的查询、分析请求进行高效处理,把最新结作者简介:杨锋英(1979一),女,硕士,讲师,研究领域为云计算、计果及时甚至实时的返回用户。在线日志系统要算机网络、智/l~i-t‘算。--——45.—-——个独立块存储。小文件过多时,系统存储效率将明一个单独的split。另外,它会考虑数据的存储位置。显下降。而且,每个存储

8、文件的元信息都存储在Hadoop1.0版本中对HDFSAppend操作进行了重新Namenode中,并驻留在

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。