特牛生活网

spark之RDD(1)_对于rdd1((a,1),(b,2),(c,3))和rdd2((b,4),(b,5),(a,6)),-CSDN博客

网友收藏
文章浏览阅读804次。Rdd概述:rdd是spark中弹性分布式数据集,不可变可分区其中元素可以并行计算的集合 特性: 1. A list of partitions rdd最小划分在每个分区中一般hdfs中未指定以block数量作为分区数量 2. A function for computing each split Spark中RDD的计算是以分区为单位的,每个RDD都会实现compute函..._对于rdd1((a,1),(b,2),(c,3))和rdd2((b,4),(b,5),(a,6)),使用