基于storm的实时大数据处理

基于storm的实时大数据处理

ID:21313143

大小:374.31 KB

页数:9页

时间:2018-10-21

基于storm的实时大数据处理_第1页
基于storm的实时大数据处理_第2页
基于storm的实时大数据处理_第3页
基于storm的实时大数据处理_第4页
基于storm的实时大数据处理_第5页
资源描述:

《基于storm的实时大数据处理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Storm的实时大数据处理摘要:随着互联网的发展,需求也在不断地改变,基于互联网的营销业务生命周期越來越短,业务发展变化越来越快,许多业务数据fi以指数级增长等等都耍求对大量的数据做实时处理,并要求保证数裾准确可靠。而对这些挑战云计算、人数裾概念应运而生,Hadoop、Storm等技术如雨后春笋般出现。本文就当今最火的实吋流数据处理系统Storm进行详细介绍。在介绍Storm之前首先详细介绍了实吋计算和分布式系统相关技术概念以便为后面内界做铺垫。通过对Storm的®木概念、核心理念、运行机制和编程场景进行了全而的探W,使得我们对S

2、torm奋了一个比较全面的理解和方便我们在这方面进行更进-•步的学习。关键字:Storm;实时人数裾;流数裾处理1概要当今世界,信怠爆炸的吋代,互联网上的数据正以指数级别的速度增长。新浪微博注册用户己经超过3亿,用户日平均迕线时长60min,平均每天发布超过1亿条微博111。在这种背景下,云计算的概念被正式提出,立即引起了学术界和产业界的广泛关注和参与。Google是云计算鉍早的們导者,随f各类大型软件公司都争先在“云计算”领域进行一系列的研究和部署丁作。U前最流行的莫过于Apache的开源项klHadoop分布式计算平台,Hadoo

3、p专注于大规模数裾存储和处理。这种模型对以往的许多情形虽已足够,如系统n志分析、网页索引建立(它们往往都是把过去一段时间的数据进行集中处理),但是在实时大数据方而,Hadoop的MapReduce却显得力不从心,业务场景屮需要低延迟的响希単在秒级别成者毫秒级别完成分析,得到响应,并希望能够随着数裾呈的增人而扩展。此时,Twitter公司推!li开源分布式、容错的实吋流计算系统Storm,它的岀现使得大规模数据实时处理成为可能,填补了该领域的空白。Storm是一个类似于Hadoop可以处理人量数据流的分布式实时计算系统。俱是二者存在很人

4、的区,其最主要的区别在于Storm的数裾一S在内存屮流转,Hadoop使用磁盘作为交换介质,需要读写磁盘。在应川领域方面,Storm足基于流的实吋处现,Hadoop足基于任务调度的批量处理。另一个方面,Hadoop难于HDFS需要切分输入数据、产生中间数据文件、排序、数裾压缩、多份复制等,效率比较低,而Storm菽于ZeroMQ这个高性能消息通讯库,不持久化数据12]。2实时计算介绍实时计算(Real-timecomputing)也称为即时计算,是计算机科学中对受到“实时约束”的计算机硬件和计算机软件系统的研究,实时约束是从事件发生到

5、系统回应之间的敁长时间限制。实吋程序必须保证在严格的吋间限制内响应。瓦联网领域的实吋计算一般都是针对海M•数据进行的,实吋计算最秉要的-个需求是能够实时响应计算结果,一般要求为秒级。互联网行业的实时计算可以分为以下两种应用场景:(1)持续计算:主要用于互联网流式数据处理。所谓流式数裾是指将数据看作是数据流的形式來处理。数据流是一系列数据记录的集合体。常见的数据流如网站的访MPV/UV、点击、搜索关键字。(2)实时分析:主要用于特定场合下的数裾分析处理。当数裾朵很人,且存在无穷的査询条件组合,或穷举并提前计算和保存结果的代价很大时,实时

6、计算就可以发挥作用,将部分计算或全部计算过程推迟到査询阶段进行,但要求能够实吋响应。实时计算需要解决的M题和难点是实时存储和实吋计算。实时存储可以通过使用高性能的NoSQL存储来实现,实吋的计算需要依赖于计算过程全内存化。实时计筇过程一般划分为以下三个阶段:数据的产生与收集、传输与分析处理、存储并对外捉供服务。对于分布式系统來说,系统的可配置性、可维护性、可仲缩性十分重要,实吋计算丼不适川于所奋场景,因此需要根据实际业务需求和实际场景,从众多的技术和框架屮进行选择。3分布式系统相关技术介绍3.1HBaseHBase是一个高可哉、高性能

7、、面叫列、可伸缩的开源分布式数摒库,根摒Google发表的Bigtable论文进行设计,可以说是GoogleBigtable的幵源实现。与Bigtable依赖于GFS作为其文件存储系统和Chubby作为集群协同服务类似,HBase的依赖于HadoopHDFS提供的底屋文件存储服务和Zookeeper提供的协同服务,卯使用HadoopMapReduce作为K海景数据处理的编程模型。使用者利用廉价的PC服务器便可以搭建HBase组成的大规模结构化存储集群⑴。HBase使川java开发,实现了Bigtable的人部分特性,WM之上的语言可以

8、直接利用其提供的API,而其他语言可以通过ThriftAPI或RESFulAPI来实现调用。HBase基于HDFS提供的岛可靠的底层存储支持以及Zookeeper提供的稳定的协调服务和故障恢(fail-over)机制,为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。