特牛网址导航

大数据之spark_spark的Action算子解析_spark在实例方法中使用action算子报错-CSDN博客

网友收藏
文章浏览阅读310次。所有的Action算子底层都是直接或间接调用了runJob方法触发Action的collect将数据收集到Driver端,并且收集的时候,是按分区编号的顺序进行收集的,所以sort排序后的数据展示出来才能看出是排好序的,collect有一个问题,就是当需要收集的数据太多时,超过内存空间就不会再收集了,因为collect收集过来的数据是存在内存当中的,不会溢写到磁盘,所以用这种方法展示数据,可能会导致数据丢失val rdd1 = sc.parallelize(List(1,2,3,4,5), 2)rd_spark在实例方法中使用action算子报错