特牛生活网

spark入门概念和案例_spark 入门实例-CSDN博客

网友收藏
文章浏览阅读194次。概念spark是基于内存的大数据计算引擎;一般数据处理的流程是从存储设备(如HDFS)拿到数据,进行逻辑处理(scala语言),将处理的结果存储到介质中(mysql等);产生的背景:mapreduce适合一次性的简单处理,当出现并行以及循环处理的场景则更加适合使用spark,因为spark会将处理结果放到memory中,作为下次计算过程中的输入,在内存机制和调度机制下这样速度会快。但是会有问题就是在集群中会造成资源不足的问题,需要的资源更加多。spark中的多个job通信基于内存,如果内存不足_spark 入门实例