特牛生活网

spark调优之大rdd倾斜解决:sample采样倾斜key单独进行join_倾斜的key单独处理-CSDN博客

网友收藏
文章浏览阅读362次。spark调优之随机前缀当两个大表出现数据倾斜,那么不能用mapjoin(也就是broadcast)来解决的时候,我们可以采用随机前缀+单独join->union正常数据join结果来解决;代码:解释:rdd2中key为“001”的数据非常多,导致数据倾斜,那么我们把rdd1、rdd2中的key为001的数据单独拿出来join;剩下的正常的key自己进行join,这两个join的结果最后进行union对于rdd1的数据,每一条数据加上0、1、2、3、4的前缀,rdd1的数据量变成原来的5倍_倾斜的key单独处理

上一篇:404!

下一篇:嘉平11-CSDN博客