阿里大数据计算服务MaxCompute-流式计算D

阿里大数据计算服务MaxCompute-流式计算D

ID:35885433

大小:138.03 KB

页数:10页

时间:2019-04-22

阿里大数据计算服务MaxCompute-流式计算D_第1页
阿里大数据计算服务MaxCompute-流式计算D_第2页
阿里大数据计算服务MaxCompute-流式计算D_第3页
阿里大数据计算服务MaxCompute-流式计算D_第4页
阿里大数据计算服务MaxCompute-流式计算D_第5页
资源描述:

《阿里大数据计算服务MaxCompute-流式计算D》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、大数据计算服务MaxCompute流式计算大数据计算服务MaxCompute/流式计算流式计算简介StreamSQL是MaxCompute提供的一种完全托管的分布式数据流式处理服务。该功能底层采用先进的分布式增量计算框架,可以实现低延迟响应,以SQL的形式提供流式计算服务,并且完全屏蔽了流式计算中复杂的故障恢复等技术细节,极大的提高了开发效率。备注:目前StreamSQL已处于维护状态,不再接入新用户。后续StreamSQL会成为一款阿里云的独立产品,相关信息请关注阿里云官方通告。功能特点-低延时:

2、从数据写入到计算出结果秒级别的延迟;-高可靠:底层的体系架构充分考虑了单节点失效后的故障恢复等问题,可以保证数据在处理过程中的不重不丢。-可扩展:在数据量增加时,用户可以通过简单的增加Worker节点数量的方式进行水平扩展,可以支持每天PB级别的数据流量。-开发方便:使用标准的SQL描述流式计算的过程,隐藏了底层的复杂技术架构,极大的提升了开发效率。典型应用流式数据通常会采集到消息队列中,再由流式计算的引擎从消息队列中订阅数据。在MaxCompute中将这种模式进行了简化,可以将表作为流式数据载体,

3、这种表在MaxCompute中被称为HubTable,用户实时上传到HubTable中的数据可以被流式计算引擎订阅使用,并且同时会被写到离线集群中供离线计算引擎使用。用户同样可以开发应用从HubTable中订阅数据。因此在StreamSQL中,HubTable首先是流计算引擎的数据源,同时也可以作为流式计算的输出。更多有关HubTable的介绍请参考DataHubServiceStreamSQL的源头数据来自于DataHubService提供的实时上传服务,用户可以创建一张表作为实时上传的目标表(称

4、为HubTable),数据在上传后会在短时间内复制到到离线集群中,并且还可以提供类似消息队列的发布/订阅服务(Pub/Sub),数据是以一个个小的批量模式上传,延时很小。StreamSQL就通过订阅数据的方式进行增量的计算。关于HubTable的说明,请参考DataHub。9大数据计算服务MaxCompute/流式计算流式计算的结果可以直接写入HubTable,通过外部的订阅服务更新到目标库中。实现一个简单的流计算的步骤如下:CREATETABLEstream_in(...);--指定该表可以允许实

5、时数据上传ALTERTABLEstream_inSETHUBLIFECYCLE2;--创建另一张流式计算的输出结果表CREATETABLEstream_out(...);ALTERTABLEstream_outSETHUBLIFECYCLE2;创建一张数据上传的目标表,并且指定该表可以实时上传数据。Grantallontabletouserodps@aliyun-inner.com给ODPS账号授权在流式计算过程中,StreamSQL需要访问DataHub服务中得表数据。因此

6、,需要用户显示授权该ODPS账号以读权限。在后续的改进中,我们将取消此次授权操作。用户可以直接通过StreamSQL访问DataHub表数据,并满足安全需求。CREATESTREAMJOBtestjobASINSERTINTOtablestream_outSELECTCOUNT(*)FROMstream_in;ENDSTREAMJOB;创建一个流计算的任务,该任务引用stream_in表作为数据源,并且将结果写入stream_out表中。在ODPS客户端窗口中执上面的流计算任务,系统会建立一个流计算

7、的任务,一旦用户通过stream_in表实时的上传数据,就会触发流计算的过程,并且将结果增量的写入到stream_out中。调用DataHubSDK将数据上传到stream_in表中。select*fromstream_out;随着数据的上传,在ODPS客户端窗口中执行若干次。会发现有一系列逐渐累积增长的汇总数据。基本概念9大数据计算服务MaxCompute/流式计算在MaxCompute中流计算的逻辑是通过SQL定义的,称为StreamJob。streamJob通过SQL引用的HubTable读取

8、实时数据,并且将结果写入结果表中。此外,还可以维表和临时表。详细说明如下:源表StreamJob中引用的源表是HubTable,用户必须将数据通过DataHubService实时上传到ODPS中。维表维表中的内容在运行时会由系统加载到内部缓冲区,并且可以和流式数据进行Join运算。维表的定义只在该StreamJob中有效。用户利用维表可以从离线的表中加载数据。维表中的内容只被引用,不能在StreamJob中更改。在一个StreamJob中定义的维表数据不超过5个,内存

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。