资源描述:
《大数据开发套件》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据开发套件快速入门大数据开发套件快速入门快速入门本地数据导入【说明】本地数据导入支持.txt和.csv文件类型,文件大小不超过10M,且不支持分区表数据导入。以导入banking.txt为例,说明如下:步骤1:创建ODPS目标表。建表语句如下:createtableifnotexistsbank_data(agebigintcomment'年龄',jobstringcomment'工作类型',maritalstringcomment'婚否',educationstringcomment'教育程度',defaultstringcomment'是否有信用卡',housi
2、ngstringcomment'房贷',loanstringcomment'贷款',contactstringcomment'联系途径',monthstringcomment'月份',day_of_weekstringcomment'星期几',durationstringcomment'持续时间',campaignintcomment'本次活动联系的次数',pdaysdoublecomment'与上一次联系的时间间隔',previousdoublecomment'之前与客户联系的次数',poutcomestringcomment'之前市场活动的结果',emp_var_r
3、atedoublecomment'就业变化速率',cons_price_idxdoublecomment'消费者物价指数',cons_conf_idxdoublecomment'消费者信心指数',euribor3mdoublecomment'欧元存款利率',nr_employeddoublecomment'职工人数',ybigintcomment'是否有定期存款');备注:如果您的MaxCompute表中有datetime类型的字段,请确保数据文件对应的时间格式为yyyy-mm-ddhh24:mi:ss。步骤2:点击顶部菜单栏中的数据开发,导航至数据开发>新建。步骤3:
4、点击“导入”,选择导入本地数据。步骤4:选择本地数据文件,配置导入信息,点击下一步。1大数据开发套件快速入门步骤5:选择目标表,并选择字段匹配方式(本示例选择按位置匹配),点击导入。2大数据开发套件快速入门步骤6:文件导入成功后,系统右上角将提示文件导入成功,同时可以执行select语句查看数据。创建任务步骤1:在“数据开发”界面的工具栏中,点击新建任务。步骤2:在新建任务弹出框中填写各配置项。此处以创建一次性调度工作流为例,若工作流需要每日自动调度运行就选择“周期调度”,然后在工作流属性中配置调度周期。3大数据开发套件快速入门新建任务弹出框中配置项说明如下:■任务类型
5、:包括工作流任务和节点任务两种类型,工作流任务中可以包括多个节点任务。■任务名称:支持数字、字母、下划线组合。■调度类型:调度类型支持一次性调度和周期调度两种类型,且成功创建工作流之后无法修改。一次性调度的工作流属性和节点属性中不包含调度属性,同时在工作流开发面板中可直接运行当前工作流。■描述:针对当前工作流的简单描述,支持中文、字母、数字、下划线组合。■选择目录:选择该任务所应归属的文件树。【说明】目前节点任务暂只支持周期调度,同时需要在类型中选择节点类型,包括:数据同步、MaxComputeSQL等。步骤3:点击创建。【说明】目前数据同步任务支持的数据源类型包括:M
6、axCompute、RDS(MySQL、SQLServer、PostgreSQL)、Oracle、FTP、ADS、OSS、OCS、DRDS。以RDS数据同步至MaxCompute为例,详细说明如下:step1:创建数据表创建MaxCompute表的详细操作详见:创建表。step2:新建数据源4大数据开发套件快速入门【说明】新建数据源需项目管理员角色才能够创建。准备工作目前RDS数据源仅支持华东1(杭州)域的RDS,北京地域暂时不支持。另外当杭州地域的RDS也遇到数据源测试不连通的时候,需要到自己RDS上添加数据同步机器ip白名单:10.152.69.0/24,10.15
7、3.136.0/24,10.143.32.0/24,120.27.160.26,10.46.67.156,120.27.160.81,10.46.64.81,121.43.110.160,10.117.39.238,121.43.112.137,10.117.28.203,118.178.84.74,10.27.63.41,118.178.56.228,10.27.63.60,118.178.59.233,10.27.63.38,118.178.142.154,10.27.63.15注意:若使用自定义资源组调度RDS的数据同步任务,必须把