基于Hadoop平台的稽核规则

基于Hadoop平台的稽核规则

ID:40917977

大小:167.50 KB

页数:15页

时间:2019-08-10

基于Hadoop平台的稽核规则_第1页
基于Hadoop平台的稽核规则_第2页
基于Hadoop平台的稽核规则_第3页
基于Hadoop平台的稽核规则_第4页
基于Hadoop平台的稽核规则_第5页
资源描述:

《基于Hadoop平台的稽核规则》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop平台的稽核规则测试报告----GRIS平台开发部谌章义1.测试过程测试不仅要验证Hadoop平台运行稽核规则的性能,还要验证集群规模与数据量之间的关系,所以每项测试都分为3个,5个,和7个计算节点进行。测试内容如下:1)完全遵循现有稽核规则,将24,37号规则中涉及的视图导入Hive,作为物理表,再分别运行在Hadoop上运行24和37号规则;2)根据Hadoop和Hive特点进行优化:对Hive中的物理表进行排序、分区等预处理,并且在Join操作中,对小表全部载入内存,以提高稽核规则运行性能;3)为了验证Hadoop在大数据处理方面的性能,将现有数据规模扩大10倍,验

2、证Hadoop平台运行稽核规则的性能。4)多任务运行时的性能测试和对比测试数据(选取一个省公司实际数据):1)24号规则检查年底是否存在未实际发生的大额成本挂账情况(具体实现见附录1),涉及的大数据表有两个:aud_newzwpz_2012——记录数:5110396,大小:786MBAud_newzwpz_2013——记录数:474379,大小:72MB.2)37号规则检查应列入未列入工资的情况(具体实现见附录2),涉及的大数据表有两个:Aud_zwpz_2012——记录数:5110396,大小:1245MBAud_WL_DWKMHZ_2012——记录数:3148560,大小:446M

3、B2.测试结果2.1完全遵循现有表结构,在Hadoop上执行稽核规则1)37号规则测试选取了三类测试:0600——仅稽核0600这一个单位060X——稽核编号以060打头的单位06X——稽核该省公司所有单位测试结果如下:37规则3节点5节点7节点Oracle0600207.70200.99190.13161.00060X234.11212.25199.96208.0006X302.79259.90210.04119.00为了对比测试结果,我们以处理的数据量为横轴,对比Hadoop集群(3,5,7节点)和Oracle的执行时间。下图是不同测试环境下,随着稽核单位增多,稽核时间的变化情况:

4、图1.37号规则执行时间图从图1中可以看到:1)稽核单个单位,Hadoop性能不如Oracle;2)但是随着稽核单位的增多,Hadoop的性能开始超过Oracle;3)稽核单位增加,Hadoop执行时间变化比较平缓,而且节点越多,越平缓(7节点时间变化最小)注:Oracle测试结果在稽核单位增加,数据量增大的情况下,执行时间反而出现逆增长,原因还不是太清楚(Oracle数据又BA同事提供)。2)24号规则测试同样选取三类测试:0600——仅稽核0600这一个单位060X——稽核编号以060打头的单位06X——稽核该省公司所有单位测试结果如下:24规则3节点5节点7节点Oracle060

5、0229.10219.03224.9372.00060X237.47224.91229.82360.0006X257.34250.56242.311451.00同样采用数据量为横轴,对比不同规模Hadoop集群与Oracle执行时间的对比。下图是不同测试环境下,随着稽核单位增多,稽核时间的变化情况:图2.24号规则执行时间图从图2中可以看到:1)随着稽核单位增多,Oracle执行时间变化非常明显;原因:24号规则相对于37号规则要复杂(嵌套的层次多),而且涉及两个大表(一个500万记录,一个300万记录)的频繁Join,所以增加稽核单位后,Oracle端的时间变化非常明显。2)Hado

6、op的执行时间变化还是非常的平稳;3)虽然稽核的单位增多,数据量增大,但是Hadoop集群规模对于性能影响很小,基本处于同一水平。原因:1)Hive将稽核规则编译生成一系列的Job,每个Job由不同的Map和Reduce组成,如24号规则会生成8个Job:Job0:Map:6Reduce:7CumulativeCPU:86.68secHDFSRead:1247826241HDFSWrite:7453813SUCCESSJob1:Map:2Reduce:1CumulativeCPU:21.27secHDFSRead:7456882HDFSWrite:7452869SUCCESSJob2:

7、Map:6Reduce:7CumulativeCPU:119.7secHDFSRead:1255279515HDFSWrite:27583162SUCCESSJob3:Map:1Reduce:1CumulativeCPU:16.47secHDFSRead:27586086HDFSWrite:226282SUCCESSJob4:Map:1Reduce:1CumulativeCPU:6.06secHDFSRead:226824HDFSWrite:2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。