- 链接地址:https://blog.csdn.net/m0_49834705/article/details/114517812
- 链接标题:SparkSQL底层具体实现的3种方式详解_spark中join的底层实现过程-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:8245
文章浏览阅读340次。引言join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动决策使用哪种实现范式): 1.Broadcast Hash Join:适合一张很小的表和一张大表进行Join; 2.Shuffle Hash Join:适合一张小表(比上一个大一点)和一张大表进行_spark中join的底层实现过程
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除