特牛生活网

Spark分布式计算原理_spark数据计算-CSDN博客

网友收藏
文章浏览阅读646次。Spark分布式计算原理一、RDD特征1、Lineage:血统、遗传2、依赖关系二、DAG(有向无环图)工作原理三、Spark Shuffle过程四、RDD持久化1、RDD缓存机制2、缓存策略3、缓存应用场景4、检查点五、RDD共享变量1、广播变量2、累加器六、RDD分区设计1、分区大小限制为2G2、分区太少3、分区过多4、经验5、数据倾斜一、RDD特征1、Lineage:血统、遗传RDD最重要的特性之一,保存了RDD的依赖关系RDD实现了基于Lineage的容错机制2、依赖关系宽依赖一个_spark数据计算