特牛网址导航

Spark之Shuffle参数调优解析_spark.shuffle.memoryfraction-CSDN博客

网友收藏
文章浏览阅读3.3k次。在分布式系统中,数据分布在不同的节点上,每个节点计算一部分数据,后续将各个节点的数据进行汇聚,此时会出现shuffle,shuffle会产生大量的磁盘IO,网络IO,压缩,解压缩,序列化,反序列化等操作,这系列操作对性能都是很大的负担。下面是spark2.2.0版本的shuffle的属性表,http://spark.apache.org/docs/2.2.0/configuration.html一、Shuffle 参数Property Name Default Meaning _spark.shuffle.memoryfraction