特牛网址导航

SparkSQL的优化:(Spark on Hive)_set spark.sql.autobroadcastjointhreshold-CSDN博客

网友收藏
文章浏览阅读869次。SparkSQL的优化:(Spark on Hive)(1)内存优化①合理设置资源配置–num-executors executor的个数–executor-memory 每个executor的内存–driver-memory Driver端的内存②DS和DF的缓存持久化DS和DF默认的缓存级别是MEMORY_AND_DISK③DS和DF并不是使用java序列化和kryo序列化,而是有一个特殊的序列化方式(2)分区和参数设置①SparkSQL默认shuffle的分区个数为200,由sp_set spark.sql.autobroadcastjointhreshold