数据挖掘数据处理中小技巧.ppt

数据挖掘数据处理中小技巧.ppt

ID:50101581

大小:489.00 KB

页数:19页

时间:2020-03-08

数据挖掘数据处理中小技巧.ppt_第1页
数据挖掘数据处理中小技巧.ppt_第2页
数据挖掘数据处理中小技巧.ppt_第3页
数据挖掘数据处理中小技巧.ppt_第4页
数据挖掘数据处理中小技巧.ppt_第5页
资源描述:

《数据挖掘数据处理中小技巧.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、TrapsandTipsinDataMiningDevelopement主要内容开发过程中对于新手常见又容易忽略的小问题表面好还不够,基础也很重要相关问题查询的逻辑正确性查询性能数据挖掘操作问题工具小问题等等失败乃成功之母但..."Onlyafoollearnsfromhisownmistakes.Thewisemanlearnsfromthemistakesofothers."OttovonBismarck(Allexamplesarereal;justdon'ttakeitpersonally.)查询的逻辑问题join错误分清Inner/left

2、/right/fullJOIN,弄清应用场景。三个或以上表FULLJOIN的时候要更小心。Join的表有重复号码历史表、转品牌、多维表等如果两个要JOIN的表表有重复号码,生成的表就叉乘出更多重复号码尽量先Aggregate再join,保持粒度一致sela.c_usr_nbr,b.si_b_brnd_cd,count(distincta.c_b_area_cd)asarea_cnrfrompmarttemp.tmp_usr_toll_b_area_200901aleftjoinpmart.TB_MID_FRD_INFO200901bona.c_usr

3、_nbr=b.c_usr_nbrgroupby1,2Traps查询的逻辑问题被除数为0:a/(b+0.0001)只有在b>=0的时候才适用Coalesce(a/nullifzero(b),y)b=0时用y作为结果整数相除integer/integer->integer在算比率时会出问题。10/100=>0必须先转为float类型Traps查询的性能问题现象:慢、skewed。通过TM监控。常见原因:PrimaryIndex(PI)的问题。建新表时没有指定PI,结果将month作为PI了BadPI(notspecified),skew大表不是按PI关联

4、(交往圈表)关联条件错误没写关联条件!或漏了(倒如缺了月份的关联条件)Traps查询的性能问题Optimizer不能找出最好的运行方案通过explain查看运行方案用Collectstat,让数据的新状况告诉Optimizer中止有问题的脚本如果用perl运行,ctrl-c只是中止了perl,bteq脚本仍在运行。要将窗口关掉,才能完全中止。Traps查询性能问题JOIN和Aggregation先Join再aggregatevs.先agrregate再joinsela.c_usr_nbr,b.si_b_brnd_cd,count(distincta.

5、c_b_area_cd)asarea_cntfrompmarttemp.tmp_usr_toll_b_area_200901aleftjoinpmart.TB_MID_FRD_INFO200901bona.c_usr_nbr=b.c_usr_nbrgroupby1,2运筹:理清计算过程,为多次使用的中间数据建立临时表,不用重复计算。Traps逻辑清晰的程序运行效率也通常高数据处理性能问题尽量不要随意Insert,update,delete慢、资源多、拖累其它作业。(日志资源很有效)cancel后要rollback,也会影响很大。有时搞到要将整个表废掉

6、。基本上不要update改变C编程的思维i=0;if(长途){i++;a+=i;}X不适用于DW编程DW思维:使用sum(casewhen.....end)考虑用PartitionedPrimaryIndex(PPI)优化insert/deleteUnionvs.unionallUnion需要进行重复记录检查,慢如果可预知是没重复记录的,则用unionall(不作重复检查)。例如几个地市的数据集合并。Traps数据处理性能问题同步执行,效率更高Insertintot.....;insertintot.....对同一个表的多条delete/insert

7、/update在同一步运行时会得到优化,速度比分开时快很多。(SQLAssistant里要点并发执行按钮)全表删除用deletefromtallTips注意分号的位置,在下一个insert的行首数据挖掘的问题Z-score(标准化)在VariableTransformation模块中消除数据不同月份间的季节性差异。消除量纲。如果一个变量可能是全0(根据月份不同而变),则可能出错除以0错误。解决:将score代码取出来,全部变量进行替换:(a-avg)/stdev-->zeroifnull((a-avg)/nullifzero(stdev))Tips数

8、据挖掘的问题NULL值处理在分析算法中,包括NULL值的记录会被删除。注意:许多变量中NULL值是有意义。比

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。