特牛生活网

spark的shuffle和mr的shuffle比较-CSDN博客

网友收藏
文章浏览阅读402次。mr的shufflemapShuffle数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的在某个节点上启动了mapTask,mapTask读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的时候会把文件益写到磁盘,溢出的各种小文件会合并成一个大文件,这个合并的过程中会进行..._spark的shuffle和mr的shuffle