特牛网址导航

大数据:Spark 算子(一)排序算子sortByKey来看大数据平台下如何做排序_spark排序算子-CSDN博客

网友收藏
文章浏览阅读8.7k次,点赞6次,收藏13次。1 前言在前面一系列博客中,特别在Shuffle博客系列中,曾今描述过在生成ShuffleWrite的文件的时候,对每个partition会先进行排序并spill到文件中,最后合并成ShuffleWrite的文件,也就是每个Partition里的内容已经进行了排序,在最后的action操作的时候需要对每个executor生成的shuffle文件相同的Partition进行合并,完成Action的操_spark排序算子