特牛网址导航

Spark Shuffle相关参数优化_spark.shuffle.compress-CSDN博客

网友收藏
文章浏览阅读566次,点赞2次,收藏2次。原文连接Spark2.x优化:Shuffle相关参数优化一、前言大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。二、相关参数及优化建议1.spark.shuffle.file.buffer默认值:32KB参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲区中,待缓冲区写满之后,才会溢写到磁盘。_spark.shuffle.compress