spark调优之大rdd倾斜解决：sample采样倾斜key单独进行join_倾斜的key单独处理-CSDN博客

网友收藏2024-01-22 22:30

链接地址：https://blog.csdn.net/zgm12/article/details/108170982
链接标题：spark调优之大rdd倾斜解决：sample采样倾斜key单独进行join_倾斜的key单独处理-CSDN博客
所属网站：blog.csdn.net
被收藏次数：4934

文章浏览阅读362次。spark调优之随机前缀当两个大表出现数据倾斜，那么不能用mapjoin（也就是broadcast）来解决的时候，我们可以采用随机前缀+单独join->union正常数据join结果来解决；代码：解释：rdd2中key为“001”的数据非常多，导致数据倾斜，那么我们把rdd1、rdd2中的key为001的数据单独拿出来join；剩下的正常的key自己进行join，这两个join的结果最后进行union对于rdd1的数据，每一条数据加上0、1、2、3、4的前缀，rdd1的数据量变成原来的5倍_倾斜的key单独处理

本文地址：https://tebull.com/detail/488147.html

标签：倾斜的key单独处理