hive数据倾斜原因分析及解决方案.docx

ID：59254986

大小：25.43 KB

页数：4页

时间：2020-09-08

资源描述：

《hive数据倾斜原因分析及解决方案.docx》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、hive数据倾斜原因分析及解决方案1.hive数据倾斜有哪些原因造成的？化过程中，遇到了数2.数据倾斜可以修改哪些参数？3.有数据倾斜的时候进行负载均衡，可以通过哪个参数来设置？在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的r

2、educe输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后，总结如下。1数据倾斜的原因1.1操作：关键词情形后果Join其中一个表较小，但是key集中分发到某一个或几个Reduce上的数据远高于平均值大表与大表，但是分桶的判断字段0值或空值过多这些空值都由一个reduce处理，灰常慢groupbygroupby维度过小，处理某值的reduce灰常耗时某值的数量过多CountDistinct某特殊值过多处理此特殊值的reduce耗时1.2原因：1)、k

3、ey分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜1.3表现：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。2数据倾斜的解决方案2.1参数调节：hive.map.aggr=trueMap端部分聚合，相当于Combinerhive.groupby.skewindata=true有数据倾斜的时

4、候进行负载均衡，当选项设定为true，生成的查询计划会有两个MRJob。第一个MRJob中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupByKey有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MRJob再根据预处理的数据结果按照GroupByKey分布到Reduce中（这个过程可以保证相同的GroupByKey被分布到同一个Reduce中），最后完成最终的聚合操作。2.2SQL语句调节：如何Join：关于驱动表的选取，选用joinkey分

5、布最均匀的表作为驱动表做好列裁剪和filter操作，以达到两表做join的时候，数据量相对变小的效果。大小表Join：使用mapjoin让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce.大表Join大表：把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终结果。countdistinct大量相同特殊值countdistinct时，将值为空的情况单独处理，如果是计算countdistinct，可以不用处理，直接过滤，在最后结果中加1。如果还有其

6、他计算，需要进行groupby，可以先将值为空的记录单独处理，再和其他计算结果进行union。groupby维度过小：采用sum()groupby的方式来替换count(distinct)完成计算。特殊情况特殊处理：在业务逻辑优化效果的不大情况下，有些时候是可以将倾斜的数据单独拿出来处理。最后union回去。3典型的业务场景3.1空值产生的数据倾斜场景：如日志中，常会有信息丢失的问题，比如日志中的user_id，如果取其中的user_id和用户表中的user_id关联，会碰到数据倾斜的问题。解决方法1：user_id为空的不参与关联se

7、lect*fromloga joinusersb ona.user_idisnotnull anda.user_id=b.user_idunionallselect*fromloga wherea.user_idisnull;解决方法2 ：赋与空值分新的key值select* fromloga leftouterjoinusersb oncasewhena.user_idisnullthenconcat(‘hive’,rand())elsea.user_idend=b.user_id;结论：方法2比方法1效率更好，不但io

8、少了，而且作业数也少了。解决方法1中log读取两次，jobs是2。解决方法2job数是1。这个优化适合无效id(比如-99,’’,null等)产生的倾斜问题。把空值的key变成一个字符串加上随机数，就能把倾

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

hive数据倾斜原因分析及解决方案.docx

hive数据倾斜原因分析及解决方案.docx

相关文章

相关标签