- 链接地址:https://gavinkai.blog.csdn.net/article/details/114587924
- 链接标题:数据分析大数据面试题大杂烩02_genericudafcount.java-CSDN博客
- 所属网站:gavinkai.blog.csdn.net
- 被收藏次数:527
文章浏览阅读2.3k次。Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co_genericudafcount.java
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除