- 链接地址:https://blog.csdn.net/qq_40383147/article/details/109032315
- 链接标题:RDD 中的 reducebyKey 与 groupByKey 哪个性能高?_rdd中reducebykey和groupbykey性能-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:8726
文章浏览阅读991次。groupByKeyval counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum))groupByKey的性能,相对来说,是有问题的因为,它是不会进行本地聚合的,而是原封不动的,把ShuffleMapTask的输出,拉取到ResultTask的内存中,所以这样的话,会导致,所有的数据,都要进行网络传输,从而导致网络传输的性能开销很大但是,有些场景下,用其他算法实现不了的,比如reduce_rdd中reducebykey和groupbykey性能
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除