数据迁移到maxcompute的n种方式

数据迁移到maxcompute的n种方式

ID:32878870

大小:875.51 KB

页数:9页

时间:2019-02-17

数据迁移到maxcompute的n种方式_第1页
数据迁移到maxcompute的n种方式_第2页
数据迁移到maxcompute的n种方式_第3页
数据迁移到maxcompute的n种方式_第4页
数据迁移到maxcompute的n种方式_第5页
资源描述:

《数据迁移到maxcompute的n种方式》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据迁移到MaxCompute的N种方式想用阿里云大数据技术服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中。按照数据迁移场景,大致可以分为批量数据迁移和实时数据迁移两种,下面我们针对每种场景分别介绍几种常用方案。一、异构数据源批量数据迁移到MaxCompute1、通过数加-数据开发(CDP)做数据同步i.开通数加开发环境,数据源需要配置到数加DataIDE中,并保证连通性。目前MaxCompute支持的数据源如下图:ii.创建数据同步任务,配置数据映射iii.保存

2、后提交运行,可以通过执行日志监控执行成功与否。使用限制:数加DataIDE中添加的数据源要确保在数据源类型支持列表中,并且要确保数据源连通性。2、通过DataX实现数据同步DataX是阿里巴巴集团内被广泛使用的异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX本身作为离线数据同步框架,采用Framework+plugin架构构建。将数据源读取和写入抽象成为

3、Reader/Writer插件,纳入到整个同步框架中。目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:使用示例(从MySQL读取数据写入ODPS):i.直接下载DataX工具包,下载后解压至本地某个目录,修改权限为755。下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gzii.创建作业配置文件pythondatax.py-rmysqlreader-wo

4、dpswriteriii.根据配置文件模板填写相关选项(源和目标数据库的用户名、密码、URL、表名、列名等),如下图:iv.启动DataX同步任务pythondatax.py./mysql2odps.json3、通过Sqoop实现数据同步请参考https://github.com/aliyun/aliyun-odps-sqoop4、通过DTS(数据传输)实现数据同步请参考https://help.aliyun.com/document_detail/26612.html二、本地文件上传到MaxCompute1、通

5、过数加DataIDE导入本地文件i.登陆“数加-数据开发”,点击“导入-导入本地数据”ii.配置分隔符、数据文件字符编码等iii.选择目标表后即可导入使用限制:上传本地文件大小不能超过10M。2、通过MaxCompute客户端上传数据i.下载MaxCompute客户端下载路径:http://repo.aliyun.com/download/odpscmd/0.24.1/odpscmd_public.zipii.解压并配置客户端解压后进入到conf目录,用编辑器打开odps_config.ini,配置相应的acce

6、ss_id、access_key、project_name等。iii.运行MaxCompute客户端odpscmd–config=../conf/odps_config.iniiv.通过tunnel可以上传下载数据,详情可以通过tunnelhelp查看帮助v.通过tunnelupload上传本地文件到MaxCompute,详情可以通过tunnelhelpupload查看帮助命令示例:tunnelupload./data.txttest_tunnel-fd","-rd"";解读:data.txt–数据文件tes

7、t_tunnel–MaxCompute中数据表-fd","–指定逗号为数据列分隔符-rd""–指定换行符为数据行分隔符备注:通过tunnel上传数据比较灵活,可以指定线程数等来提升效率。另外有个性化需求的也可以通过TunnelSDK的方式做数据同步,详见:https://help.aliyun.com/document_detail/27837.html三、实时数据归档到MaxCompute1.通过DataHub将流式数据归档到MaxCompute用户通过创建DataHubConnector,指定相关配置,即

8、可创建将Datahub中流式数据定期归档的同步任务。请参考https://datahub.console.aliyun.com/intro/advancedguide/connector.html2.通过DTS将数据实时同步到MaxCompute请参考https://help.aliyun.com/document_detail/26614.html3.通过OGG将数据实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。