特牛网址导航

二、RDD编程_rdd是编程范式 对不对-CSDN博客

网友收藏
文章浏览阅读594次。1. 什么是RDD?弹性分布式数据集(Resilient Distributed Dataset,简称 RDD)。RDD 其实就是分布式的元素集合。在Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后,Spark会自动将RDD 中的数据分发到集群上,并将操作并行化执行。RDD是一种对数据集形态的抽象,基于此抽象,使用者可以在集群中执行一系列计算,而不用将中间结果落盘。(这正是之前MR抽象的一个重要痛点,每一个步骤都需要落盘,使得不必要_rdd是编程范式 对不对