datastage优化培训笔记

datastage优化培训笔记

ID:35955545

大小:21.93 KB

页数:3页

时间:2019-04-27

datastage优化培训笔记_第1页
datastage优化培训笔记_第2页
datastage优化培训笔记_第3页
资源描述:

《datastage优化培训笔记》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、--WORD格式---可编辑--DataStage优化培训笔记Sequentialfile1、注意rejectmode的设置2、优化:(在文件定长的前提下)numberofreaderspernode设定单节点的多个读取,根据实际情况设置多读个数readfrommultiplenodes设定多节点的数据读取ChangeCaptureStage比较数据后会进行排序,如果之前的数据已经做了排序,则需要改变排序属性。注意before和after的设置,不要设反。CopyStage在内存中操作的组件,建议1进多出用copy组件TansformerStage

2、是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so的程序,Transformer组件中包含的函数,可以自己编写函数进行嵌入(通过routine实现)filter不能用于复杂的判断,copy不能增加赋默认值的字段..SortStage尽量不用,属于滞留组件,要等数据齐全后再能进行sort操作LookUp和Join的区别需要注意join一定要进行排序再进行处理(效率较低),LookUp是流水线实现(超过800M不能用此stage)DataSetStageStage自动设置数据为定长,实现多值读取,可以通过droponinput来限制输

3、入数据。生产环境优化:关注CPU(并发路数,逻辑节点数,物理作业数),内存,I/O交互1、在OracleEnterprise中使用select语句时,提取尽量少的字段数据2、在使用LookUpStage时,如果数据从Oralce出来的,在LookUptable(参照表中)可以设置Lookuptype=sparse(此方式是数据不提取到内存,直接在表中进行操作)----WORD格式---可编辑--3、在OracleEnterprise中设置Partitiontable="需要查询的表名"可以实现多进程读取数据4、在文件系统中,为平衡节点负载,建议数据

4、的输入和输出放在不同的磁盘上(可通过节点进行设置,如Sequential_File中设置FILE的路径)5、尽量少用repartition(sortstage、joinstage等组件需要对数据进行repartition)----WORD格式---可编辑--6、要保证有足够的scratch空间,当此空间满了之后,系统会把数据转移到tmp空间,效率----WORD格式---可编辑--变低----WORD格式---可编辑--7、网络瓶颈会影响作业效率(局域网通讯,Node之间的通讯问题)----WORD格式---可编辑--8、在MAIN机器上,设置

5、是否关闭jobmonitor进程(pools""为默认节点,需要进行节点运----WORD格式---可编辑--行,如果对””进行赋值,则不作为默认节点,不做运行。一个逻辑节点不能超过CPU的个数)9、upsert和Load的区别(预估万条记录以下的少量数据使用insert,),大量的用load)。10、Stage中的NodeMap除特殊情况(单机器与外部通讯),否则无需指定。11、减少组件自身的sort功能(join,aggrigator,changecapture,difference)12、优化流程,减少不必要的处理,复杂组件通过自定义组件实现

6、(增量数据查找后到全量进----WORD格式---可编辑--行查找)--

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。