支付宝数据仓库hive开发注意事项

支付宝数据仓库hive开发注意事项

ID:15991530

大小:65.50 KB

页数:4页

时间:2018-08-07

支付宝数据仓库hive开发注意事项_第1页
支付宝数据仓库hive开发注意事项_第2页
支付宝数据仓库hive开发注意事项_第3页
支付宝数据仓库hive开发注意事项_第4页
资源描述:

《支付宝数据仓库hive开发注意事项》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、HIVE开发注意事项1HIVE开发注意事项1.1始终保持怀疑的态度来使用Hive1.2HIVE环境中账户分类1)目前hive分为logana和payods两个应用用户,前者用作日志分析,后者用作内容分析,与gp保持一致1.3数据存储及物理文件目录1)目录结构:payods作为“内容”这边的总目录,下面二级目录以数据层次划分,数据层次下面三级目录以主题划分,如下payodspayods/ods(dwd、dwb、dws、dm、st、dim、t、tmp)payods/ods/trd(fnd、crd、chg、pay、cbz、bbz、c

2、tu、crm、mob、tbd、tec),此处没有log主题2)每日全量一律用表分区存储,不再新建表,并且这样的表以“_dd”作为后缀(表示每个分区即时一份全量),分区字段命名见1.3-4)节1.4建表及命名1)除tmp表外其他表一律用外部表(external),(字段长度如何体现,建表系统),createexternaltabletabname(col1int,col2string)partitionedby(dtstring)rowformatdelimitedfieldsterminatedby','linestermin

3、atedby''storedastextfile4支付宝数据仓库编程文档V1.0location'/group/alipay/alipaydw/payods/ods/trd/tabname';altertabletabnamesetserdeproperties('serialization.null.format'='');说明:external建表模式下,表分区删除后,数据文件仍保留,而tmp表属于加载过程中临时性质,用完以后需要将数据删除。所以tmp表不能建为external表建表语句之后,必须通过ALTERTABL

4、E来设置setserdeproperties属性,将使的NULL值在文本中存储为空字符,符合目前使用的习惯及要求1)表数据存储格式一律用textfile,非压缩2)字段间用逗号(,)分割,行间隔用换行符()分割3)日期分区字段统一采用dt命名,格式如下“yyyymmdd”partitionedby(dtstring),4)dim表一律用非分区表5)tmp表一律用分区表(用来清空数据,insertoverwrite时select表数据为空时不会覆盖目标表数据,因此须采用清分区的方法,另外由于tmp是脚本执行过程中临时性质使用

5、的表,所以通过清分区的方式可以释放空间),无后缀tcl中tmp命名格式:tmp_tcl名字_序号注意:每个tcl执行完成后,需要在最后进行drop清除分区的动作如:altertabletmp_dim_trade_notetypedroppartition(dt=${tmp_yyyymmdd}6)ods、dwd,dwb表一律采用分区表,以DD结尾,(需要和GP上的表区别,GP上的表带有YYYYMMDD后缀),表示日明细表7)dws表一律采用分区表,以DS结尾,表示日汇总表1.1数据类型及函数使用1)使用四种类型:string(字

6、符串)、int(短整型)、bigint(长整型,用于金额等字段类型)、double(仅用于服务费率等含小数字段类型)2)日期格式字段统一使用yyyymmdd的格式,类型使用string3)Timestamp格式字段统一使用yyyy-mm-ddhh24:mi:ss的格式,类型使用string4)排序是如果要求对所有结果有顺序用orderby,否则用distributeby...sort4支付宝数据仓库编程文档V1.0by...其中orderby是对结果的全局排序,而distributeby...sortby是对分发到不同服务器上

7、的数据进行局部排序1)orderby1;类似的写法不正确,要用列名称排序2)需要对查询结果赋予自增序列,需要使用rownumber()函数,它是一个UDF函数(自定义函数),在使用这个函数时,需要通过如下命令方式进入HIVE:hive-i/data1/alipaydw/alitools/lib/ali_hive_function3)实现类似于row_number()over(partitionbytrade_noorderbymodified_date)=1的功能,排重并且取第一条Selecttrade_norownumber

8、(trade_no)From(selecttrade_noFromtable1Distributebytrade_noSortbytrade_no,modified_date)p4)目前HIVE暂时不支持不等值连接(需要二次开发来实现功能)5)Hive中浮点数运算会存在结果不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。