文章浏览阅读1.7w次,点赞4次,收藏20次。数据量: 1~2G左右的表与3~4T的大表进行Join拆分 将任务数据分为多个结果RDD,将各个RDD的数据写入临时的hdfs目录,最后合并调整并行度和shuffle参数 spark-submit 参数#提高shuffle阶段的任务并......
admin
文章浏览阅读869次。SparkSQL的优化:(Spark on Hive)(1)内存优化①合理设置资源配置–num-executors executor的个数–executor-memory 每个executor的内存–driver-memory Driver端的内存②DS和DF的缓存持久化DS和DF默认的缓存级别是MEMORY_AND_DISK......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453