大数据之spark_累加器_collectionaccumulator-CSDN博客

网友收藏2024-01-23 02:50

链接地址：https://blog.csdn.net/WuBoooo/article/details/108858229
链接标题：大数据之spark_累加器_collectionaccumulator-CSDN博客
所属网站：blog.csdn.net
被收藏次数：4088

文章浏览阅读299次。累加器用来统计数据条数,可以统计总条数,也可以统计指定条件筛选后的数据条数,例如:处理日志数据时,出现的脏数据条数,如果我们想返回所有的脏数据并返回有用的数据,那么我们需要触发两次Job才能做到,如果用了累加器则不用触发两次Job累加器它是先在每个Task中进行累加,返回Driver端时再整体累加所有Task中的累加器,累加器在每个Task上是独立的(class 修饰的),这样可以避免线程安全问题运用累加器时,实际上就是一个闭包,它定义在Driver端,通过Task发送到Executor端,运用在每个_collectionaccumulator

本文地址：https://tebull.com/detail/495881.html

标签：collectionaccumulator