大数据之spark_spark的Action算子解析_spark在实例方法中使用action算子报错-CSDN博客

网友收藏2024-01-23 02:51

链接地址：https://blog.csdn.net/WuBoooo/article/details/108743214
链接标题：大数据之spark_spark的Action算子解析_spark在实例方法中使用action算子报错-CSDN博客
所属网站：blog.csdn.net
被收藏次数：8831

文章浏览阅读310次。所有的Action算子底层都是直接或间接调用了runJob方法触发Action的collect将数据收集到Driver端,并且收集的时候,是按分区编号的顺序进行收集的,所以sort排序后的数据展示出来才能看出是排好序的,collect有一个问题,就是当需要收集的数据太多时,超过内存空间就不会再收集了,因为collect收集过来的数据是存在内存当中的,不会溢写到磁盘,所以用这种方法展示数据,可能会导致数据丢失val rdd1 = sc.parallelize(List(1,2,3,4,5), 2)rd_spark在实例方法中使用action算子报错

本文地址：https://tebull.com/detail/495897.html

标签：spark在实例方法中使用action算子报错