SparkSQL底层具体实现的3种方式详解_spark中join的底层实现过程-CSDN博客

网友收藏2024-01-23 11:29

链接地址：https://blog.csdn.net/m0_49834705/article/details/114517812
链接标题：SparkSQL底层具体实现的3种方式详解_spark中join的底层实现过程-CSDN博客
所属网站：blog.csdn.net
被收藏次数：8245

文章浏览阅读340次。引言join是SQL中的常用操作，良好的表结构能够将数据分散到不同的表中，使其符合某种规范(mysql三大范式)，可以最大程度的减少数据冗余，更新容错等，而建立表和表之间关系的最佳方式就是join操作。对于Spark来说有3种Join的实现，每种Join对应的不同的应用场景(SparkSQL自动决策使用哪种实现范式)：　　1.Broadcast Hash Join：适合一张很小的表和一张大表进行Join；　　2.Shuffle Hash Join：适合一张小表(比上一个大一点)和一张大表进行_spark中join的底层实现过程

本文地址：https://tebull.com/detail/511284.html

标签：spark中join的底层实现过程