- 链接地址:https://blog.csdn.net/qq_42456324/article/details/124467347
- 链接标题:spark中RDD的分区_spark rdd分区数-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:1115
文章浏览阅读3.6k次。1、分区的介绍分区partition,RDD内部的数据集合在逻辑上和物理上被划分成多个小子集合,这样的每一个子集合我们将其称为分区,即是数据集的一个逻辑块。RDD只是数据集的抽象,分区内部并不会存储具体的数据。Partition 类内包含一个 index 成员,表示该分区在 RDD 内的编号,通过 RDD 编号 + 分区编号可以唯一确定该分区对应的块编号,利用底层数据存储层提供的接口,就能从存储介质(如:HDFS、Memory)中提取出分区对应的数据。2、分区的意义RDD 是一种分布式的_spark rdd分区数
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:spark rdd分区数