资源描述:
《阿里云数据集成服务-数据入云-D》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据集成数据入云数据集成/数据入云数据入云一、简介DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。二、环境要求1、Linux2、JDK(1.6以上,推荐1.6)3、Python(推荐Python2.6.X)4、ApacheMaven3.x(若不编译DataX源码,则不需要)三、工具部署方法一、直接下载DataX工具包:DataX$cd{YOUR_DATAX_HOME}/bin$pyth
2、ondatax.py{YOUR_JOB.json}下载后解压至本地某个目录,进入bin目录,即可运行同步作业:同步作业配置模板,请参考DataX各个插件配置模板和参数说明方法二、下载DataX源码,自己编译:DataX源码(1)、下载DataX源码:$cd{DataX_source_code_home}$mvn-Ucleanpackageassembly:assembly-Dmaven.test.skip=true$gitclonegit@github.com:alibaba/DataX.git(2)、通过maven打包:打包成功,日志显示如下:10数据集成/数据入云[INFO]
3、BUILDSUCCESS[INFO]-----------------------------------------------------------------[INFO]Totaltime:08:12min[INFO]Finishedat:2015-12-13T16:26:48+08:00[INFO]FinalMemory:133M/960M[INFO]-----------------------------------------------------------------$cd{DataX_source_code_home}$ls./target/datax/d
4、atax/binconfjoblibloglog_perfpluginscripttmp打包成功后的DataX包位于{DataX_source_code_home}/target/datax/datax/,结构如下:四、配置示例例:从stream读取数据并打印到控制台#stream2stream.json{"job":{"setting":{"speed":{"channel":5}},"content":[{"reader":{"name":"streamreader","parameter":{"sliceRecordCount":10,"column":[{"type":"
5、long","value":"10"},{"type":"string","value":"hello,你好,世界-DataX"},{"type":"double","value":"3.141592653"},{"type":"bytes","value":"image"},{"type":"bool","value":"true"第一步、创建创业的配置文件(json格式)10数据集成/数据入云},{"type":"bool","value":"5678true"},{"type":"date","value":"2014-10-10","dateFormat":"yyyy-M
6、M-dd"}]}},"writer":{"name":"streamwriter","parameter":{"encoding":"UTF-8","print":true}}}]}}$cd{YOUR_DATAX_DIR_BIN}$pythondatax.py./stream2stream.json第二步:启动DataX同步结束,显示日志如下:10s205B/s5rec/s500任务启动时刻:2015-12-1711:20:15任务结束时刻:2015-12-1711:20:25任务总计耗时:任务平均流量:记录写入速度:读出记录总数:读写失败总数:...2015-12-1711:2
7、0:25.263[job-0]INFOJobContainer-五、了解更多Datax开源地址DataX各个插件配置模板和参数说明一、简介10数据集成/数据入云ApacheFlume是一个分布式的、可靠的、可用的系统,可用于从不同的数据源中高效地收集、聚合和移动海量日志数据到集中式数据存储系统。ODPSSink是基于ODPSDataHubService开发的Flume插件,可以将Flume的Event数据导入到ODPS中。插件兼容Flume的原有功能特性,支持ODPS表自定义分区