欢迎来到天天文库
浏览记录
ID:35955545
大小:21.93 KB
页数:3页
时间:2019-04-27
《datastage优化培训笔记》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、--WORD格式---可编辑--DataStage优化培训笔记Sequentialfile1、注意rejectmode的设置2、优化:(在文件定长的前提下)numberofreaderspernode设定单节点的多个读取,根据实际情况设置多读个数readfrommultiplenodes设定多节点的数据读取ChangeCaptureStage比较数据后会进行排序,如果之前的数据已经做了排序,则需要改变排序属性。注意before和after的设置,不要设反。CopyStage在内存中操作的组件,建议1进多出用copy组件TansformerStage
2、是内嵌的程序,一旦作业执行到此stage程序会暂停进程,外部调用so的程序,Transformer组件中包含的函数,可以自己编写函数进行嵌入(通过routine实现)filter不能用于复杂的判断,copy不能增加赋默认值的字段..SortStage尽量不用,属于滞留组件,要等数据齐全后再能进行sort操作LookUp和Join的区别需要注意join一定要进行排序再进行处理(效率较低),LookUp是流水线实现(超过800M不能用此stage)DataSetStageStage自动设置数据为定长,实现多值读取,可以通过droponinput来限制输
3、入数据。生产环境优化:关注CPU(并发路数,逻辑节点数,物理作业数),内存,I/O交互1、在OracleEnterprise中使用select语句时,提取尽量少的字段数据2、在使用LookUpStage时,如果数据从Oralce出来的,在LookUptable(参照表中)可以设置Lookuptype=sparse(此方式是数据不提取到内存,直接在表中进行操作)----WORD格式---可编辑--3、在OracleEnterprise中设置Partitiontable="需要查询的表名"可以实现多进程读取数据4、在文件系统中,为平衡节点负载,建议数据
4、的输入和输出放在不同的磁盘上(可通过节点进行设置,如Sequential_File中设置FILE的路径)5、尽量少用repartition(sortstage、joinstage等组件需要对数据进行repartition)----WORD格式---可编辑--6、要保证有足够的scratch空间,当此空间满了之后,系统会把数据转移到tmp空间,效率----WORD格式---可编辑--变低----WORD格式---可编辑--7、网络瓶颈会影响作业效率(局域网通讯,Node之间的通讯问题)----WORD格式---可编辑--8、在MAIN机器上,设置
5、是否关闭jobmonitor进程(pools""为默认节点,需要进行节点运----WORD格式---可编辑--行,如果对””进行赋值,则不作为默认节点,不做运行。一个逻辑节点不能超过CPU的个数)9、upsert和Load的区别(预估万条记录以下的少量数据使用insert,),大量的用load)。10、Stage中的NodeMap除特殊情况(单机器与外部通讯),否则无需指定。11、减少组件自身的sort功能(join,aggrigator,changecapture,difference)12、优化流程,减少不必要的处理,复杂组件通过自定义组件实现
6、(增量数据查找后到全量进----WORD格式---可编辑--行查找)--
此文档下载收益归作者所有