特牛网址导航

内存有限的情况下 Spark 如何处理 T 级别的数据?_spark跑几十t的数据-CSDN博客

网友收藏
文章浏览阅读4.2k次。简单起见,下述答案仅就无shuffle的单stage Spark作业做了概要解释。对于多stage任务而言,在内存的使用上还有很多其他重要问题没有覆盖。部分内容请参考评论中 @邵赛赛 给出的补充。Spark确实擅长内存计算,内存容量不足时也可以回退,但题主给出的条件(8GB内存跑1TB数据)也确实是过于苛刻了……首先需要解开的一个误区是,对于Spark这类内存计算系统,并不是说要处理多大规_spark跑几十t的数据