- 链接地址:https://blog.csdn.net/WuBoooo/article/details/108858229
- 链接标题:大数据之spark_累加器_collectionaccumulator-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:4088
文章浏览阅读299次。累加器用来统计数据条数,可以统计总条数,也可以统计指定条件筛选后的数据条数,例如:处理日志数据时,出现的脏数据条数,如果我们想返回所有的脏数据并返回有用的数据,那么我们需要触发两次Job才能做到,如果用了累加器则不用触发两次Job累加器它是先在每个Task中进行累加,返回Driver端时再整体累加所有Task中的累加器,累加器在每个Task上是独立的(class 修饰的),这样可以避免线程安全问题运用累加器时,实际上就是一个闭包,它定义在Driver端,通过Task发送到Executor端,运用在每个_collectionaccumulator
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除