特牛生活网

Spark调优秘诀_序列化库、持久化、垃圾回收、提高并行度、广播共享数据、更有shuffle阶段的优化-CSDN博客

网友收藏
文章浏览阅读1.4k次。前言 每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.诊断内存的消耗在Spark应用程序中,内存都消耗在哪了?1.每个Java对象都有一个包含该对象元数据的对象头,其大小是16个Byte。由于在写代码时候,可能会出现这种情况:对象头比对象本身占有的字节数更多,比如对象只有一个_序列化库、持久化、垃圾回收、提高并行度、广播共享数据、更有shuffle阶段的优化