- 链接地址:https://blog.csdn.net/lsr40/article/details/118899820#comments_22621747
- 链接标题:【spark】metrics信息的获取(监听器等)_spark metrics-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:6873
文章浏览阅读2.2k次。一、背景最近看到了一篇文章,说的是spark小文件合并的问题Spark 小文件合并优化实践:https://mp.weixin.qq.com/s/195nFBH0kpZEXekHiQAfrA(作者:偷闲小苑)其实关于小文件合并我之前也写过类似的文章,大体的方案也就是1、存之前做一个数据量的预估,然后repartition/coalesce2、存完之后,触发一个merge合并小文件(可以是hive也可以是spark任务)3、使用一些数据湖(delta lake,hudi,iceber_spark metrics
版权声明:本文发布于特牛生活网 内容均来源于互联网 如有侵权联系删除