大数据开发之Spark总结_大数据spark技术栈-CSDN博客

网友收藏2024-01-22 22:05

链接地址：https://blog.csdn.net/m0_58371965/article/details/121533959
链接标题：大数据开发之Spark总结_大数据spark技术栈-CSDN博客
所属网站：blog.csdn.net
被收藏次数：2094

文章浏览阅读247次。一、本质Spark是一个分布式的计算框架，是下一代的MapReduce，扩展了MR的数据处理流程二、mapreduce有什么问题1.调度慢，启动map、reduce太耗时2.计算慢，每一步都要保存中间结果落磁盘3.API抽象简单，只有map和reduce两个原语4.缺乏作业流描述，一项任务需要多轮mr三、spark解决了什么问题1.最大化利用内存cache2.中间结果放内存，加速迭代3.将结果集放内存，加速后续查询和处理，解决运行慢的问题select * from_大数据spark技术栈

本文地址：https://tebull.com/detail/487427.html

标签：大数据spark技术栈