- 链接地址:https://blog.csdn.net/qq_43523503/article/details/115291240
- 链接标题:SparkSQL的优化:(Spark on Hive)_set spark.sql.autobroadcastjointhreshold-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:2736
文章浏览阅读869次。SparkSQL的优化:(Spark on Hive)(1)内存优化①合理设置资源配置–num-executors executor的个数–executor-memory 每个executor的内存–driver-memory Driver端的内存②DS和DF的缓存持久化DS和DF默认的缓存级别是MEMORY_AND_DISK③DS和DF并不是使用java序列化和kryo序列化,而是有一个特殊的序列化方式(2)分区和参数设置①SparkSQL默认shuffle的分区个数为200,由sp_set spark.sql.autobroadcastjointhreshold
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除