特牛网址导航

Spark-Core之源码级算子详解(三)_spark k-core 算法-CSDN博客

网友收藏
文章浏览阅读210次。0.intersection求交集功能:是对两个rdd或者两个集合,求共同的部分,比如第一个rdd中有的数据并且第二个rdd中也有的数据,取出相同的元素(会去重)底层:底层调用的cogroup,map将数据本身当成key,null当成value,然后进行过滤,过滤的条件为,两个迭代器都不为空迭代器,然后调用keys取出key def intersection(other: RDD[T]): RDD[T] = withScope { this.map(v => (v, null))_spark k-core 算法