特牛网址导航

spark中RDD的分区_spark rdd分区数-CSDN博客

网友收藏
文章浏览阅读3.6k次。1、分区的介绍分区partition,RDD内部的数据集合在逻辑上和物理上被划分成多个小子集合,这样的每一个子集合我们将其称为分区,即是数据集的一个逻辑块。RDD只是数据集的抽象,分区内部并不会存储具体的数据。Partition 类内包含一个 index 成员,表示该分区在 RDD 内的编号,通过 RDD 编号 + 分区编号可以唯一确定该分区对应的块编号,利用底层数据存储层提供的接口,就能从存储介质(如:HDFS、Memory)中提取出分区对应的数据。2、分区的意义RDD 是一种分布式的_spark rdd分区数