- 链接地址:https://blog.csdn.net/qq_38052208/article/details/104618782
- 链接标题:spark的shuffle和mr的shuffle比较-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:138
文章浏览阅读402次。mr的shufflemapShuffle数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的在某个节点上启动了mapTask,mapTask读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的时候会把文件益写到磁盘,溢出的各种小文件会合并成一个大文件,这个合并的过程中会进行..._spark的shuffle和mr的shuffle
版权声明:本文发布于特牛生活网 内容均来源于互联网 如有侵权联系删除