特牛生活网

SparkContext的parallelize的参数_spark parallel-CSDN博客

网友收藏
文章浏览阅读2w次,点赞3次,收藏6次。在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,_spark parallel
标签:spark parallel