阿里云数据集成服务-深入介绍-D

阿里云数据集成服务-深入介绍-D

ID:36205622

大小:360.16 KB

页数:8页

时间:2019-05-07

阿里云数据集成服务-深入介绍-D_第1页
阿里云数据集成服务-深入介绍-D_第2页
阿里云数据集成服务-深入介绍-D_第3页
阿里云数据集成服务-深入介绍-D_第4页
阿里云数据集成服务-深入介绍-D_第5页
资源描述:

《阿里云数据集成服务-深入介绍-D》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据集成进阶与深入数据集成/进阶与深入进阶与深入为构建云上四通八达的数据同步通道,CDPJob自身定义一套数据中间格式。针对不同的数据通道,实现不同的读取插件完成从各类数据源抽取数据(CDP称之为Reader),以及不同写入插件向各类数据源写入数据(CDP称之为Writer)。CDP的各类插件实际上是完成了各类数据源对接CDP的适配器。如下:CDP利用RDSReader(实际上是MysqlReader)完成数据从RDS抽取,并转换为CDP的数据协议,投递给CDP传输中间层。CDP利用ODPSWriter完成CDP的数据协议转换为ODPS的数据协议,并将转换后的数据向ODPS写入。通过上述CDP

2、数据中间层,CDP可以为公有云上构建出四通八达的数据传输同步通道,让数据不再是孤岛!7云数据库OceanBase/相关协议-CDP在进行数据同步过程中,为了提升Job数据传输吞吐能力,CDP通常将对传输数据集进行细粒度切分(CDP称之为Task),并启动多线程乃至于多进程运行容器运行Task进行数据传输服务。单个Task运行容器CDP定义为传输单元。-CDP单个传输单元数据吞吐带宽为1MB/s,受限于源宿两端数据源的限制,CDP无法保证单个传输单元一定维持在1MB/s。例如用户需要为单Job分配5MB/s的带宽,CDP将启动5个数据传输单元,吞吐量维持在5MB/s左右。由于两端数据源负载压力,

3、该Job运行期间可能存在上下波动,无法一直维持在5MB/s,但能够保证最大流量不超过5MB/s。为最大化数据同步的Job传输吞吐量,CDP将对Job进行更细粒度的任务切分,并启动多个数据传输单元进行并行数据同步。CDP的切分规则由CDP框架定义接口,具体切分规则交由具体传输插件负责实现,例如:对于ODPS而言,数据切分根据ODPS表的Record偏移量计算数据分片。对于MysqlReader插件而言,其切分算法按照Mysql数据表主键范围切分。7云数据库OceanBase/相关协议以Mysql抽取数据为例,MysqlReader启动后将连接源数据端,计算数据表主键范围,如[Min,Max],并

4、根据用户带宽需求切分上述[Min,Max]区间范围,每个子区间将作为一个Task提交给后续传输单元进行执行。例如,上述Mysql数据表主键范围在[1,4],MysqlReader根据用户需要的吞吐量计算得出数据切分规则需要两个数据子集,因此将数据区间区分为[1,2]、[3,4]两个数据子集,两个数据子集交由不同的同步传输单元完成。CDP数据同步面向是结构化、半结构化的数据同步,CDP对于源宿两端数据源均会抽象为一张二维表进行传输和映射。CDP对于字段的映射是按照配置字段顺序进行一一映射,而非依赖源宿两端字段名称。CDP本身不对源宿两端字段做任何约束,视用户填写字段顺序一一传递。由于存在异构源宿

5、两端字段个数可能不一致情况,CDP做如下约定:•源端字段和目标端字段个数一致CDP推荐配置源宿两端数据字段个数一致,避免数据字段补空情况。•源端字段比目标端字段多源端字段比目标端字段列数多意味着一定存在数据丢失情况,为避免数据丢失,CDP对于这类配置直接报错。•源端字段比目标端字段少CDP对该类情况直接在导入数据末尾添加null,做补空处理。为做到云上所有数据存储能够做到四通八达的传输通道,CDP必须设计出一套通用的数据传输格式,同时还需要保证各类数据存储系统均能够支持该协议。为尽可能适配最大范围系统,CDP仅设计支持常见数据类型,包7PB级云数据库PetaData/服务条款括:CDP支持类型

6、备注与说明Long定点数Int、Short、Long、BigIntegerDouble浮点数Float、Double、BigDecimal(无限精度)String字符串类型,底层不限长,使用通用字符集(Unicode)Date时间类型,包括日期、时间、日期时间类型Bool布尔值Bytes二进制,可以存放诸如MP3等非结构化数据不同的读取、写入插件负责将上述的表格数据转换到各自的数据存储系统。以Mysql读取为例:CDP支持类型Mysql插件对应类型Longint,tinyint,smallint,mediumint,int,bigintDoublefloat,double,decimalStr

7、ingvarchar,char,tinytext,text,mediumtext,longtext,yearDatedate,datetime,timestamp,timeBoolbit,boolBytestinyblob,mediumblob,blob,longblob,varbinary同样,以ODPS写入的数据转换表如下:CDP支持类型ODPS插件对应类型LongBIGINTDoubleDO

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。