特牛网址导航

大数据原理与技术(六):大数据离线计算框架MapReduce-CSDN博客

网友收藏
文章浏览阅读1.3k次,点赞6次,收藏4次。MapReduce是Hadoop的核心组件之一,是一种并行编程模型,用于大规模数据集(TB级别)的并行计算。MapReduce框架将并行计算抽象成为两个函数:Map和Reduce。Hadoop MapReduce是基于HDFS的分布式编程框架,可以使没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。文章目录一、概述1.MapReduce概述2.Map函数和Reduce函数二、MapReduce的工作流程1.工作流程概述2.MapReduce的各个执行阶段3.Shuffle过程详解总_大数据离线计算框架