- 链接地址:https://blog.csdn.net/shufangreal/article/details/119860292
- 链接标题:Spark-之聚合算子的关系与区别_在map端聚合的算子-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:3005
文章浏览阅读347次。Spark-之聚合算子的关系与区别reduceByKeyaggregateByKeyfoldByKeycombineByKey四种聚合方式都是在shuffle之前在分区内作预先聚合的操作,相对比groupByKey + map的方式,这些性能更加好,因为从map -> 磁盘 -> reduce这个过程中的mapstage的io减少了。这些函数的过程分为: 1、分区内聚合map端聚合 2、分区间的shuffle聚合下面通过4种不同的算子实现 wordcount操作!!#_在map端聚合的算子
版权声明:本文发布于特牛生活网 内容均来源于互联网 如有侵权联系删除
标签:在map端聚合的算子