Spark分布式计算原理_spark数据计算-CSDN博客

网友收藏 2024-01-23 23:14

链接地址：https://blog.csdn.net/qq_42578036/article/details/109647993
链接标题：Spark分布式计算原理_spark数据计算-CSDN博客
所属网站：blog.csdn.net
被收藏次数：3232

文章浏览阅读646次。Spark分布式计算原理一、RDD特征1、Lineage：血统、遗传2、依赖关系二、DAG（有向无环图）工作原理三、Spark Shuffle过程四、RDD持久化1、RDD缓存机制2、缓存策略3、缓存应用场景4、检查点五、RDD共享变量1、广播变量2、累加器六、RDD分区设计1、分区大小限制为2G2、分区太少3、分区过多4、经验5、数据倾斜一、RDD特征1、Lineage：血统、遗传RDD最重要的特性之一，保存了RDD的依赖关系RDD实现了基于Lineage的容错机制2、依赖关系宽依赖一个_spark数据计算

本文地址：https://tebull.com/detail/529574.html

标签：spark数据计算