特牛生活网

Spark-之聚合算子的关系与区别_在map端聚合的算子-CSDN博客

网友收藏
文章浏览阅读347次。Spark-之聚合算子的关系与区别reduceByKeyaggregateByKeyfoldByKeycombineByKey四种聚合方式都是在shuffle之前在分区内作预先聚合的操作,相对比groupByKey + map的方式,这些性能更加好,因为从map -> 磁盘 -> reduce这个过程中的mapstage的io减少了。这些函数的过程分为:​ 1、分区内聚合map端聚合​ 2、分区间的shuffle聚合下面通过4种不同的算子实现 wordcount操作!!#_在map端聚合的算子