- 链接地址:https://blog.csdn.net/m0_58371965/article/details/121533959
- 链接标题:大数据开发之Spark总结_大数据spark技术栈-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:2094
文章浏览阅读247次。一、本质Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程二、mapreduce有什么问题1.调度慢,启动map、reduce太耗时2.计算慢,每一步都要保存中间结果落磁盘3.API抽象简单,只有map和reduce两个原语4.缺乏作业流描述,一项任务需要多轮mr三、spark解决了什么问题1.最大化利用内存cache2.中间结果放内存,加速迭代3.将结果集放内存,加速后续查询和处理,解决运行慢的问题select * from_大数据spark技术栈
版权声明:本文发布于特牛生活网 内容均来源于互联网 如有侵权联系删除
标签:大数据spark技术栈