数据分析大数据面试题大杂烩02_genericudafcount.java-CSDN博客

网友收藏2024-01-24 15:47

链接地址：https://gavinkai.blog.csdn.net/article/details/114587924
链接标题：数据分析大数据面试题大杂烩02_genericudafcount.java-CSDN博客
所属网站：gavinkai.blog.csdn.net
被收藏次数：527

文章浏览阅读2.3k次。Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co_genericudafcount.java

本文地址：https://tebull.com/detail/557400.html

标签：genericudafcount.java