特牛生活网

Spark学习总结_spark大数据集群环境实验总结-CSDN博客

网友收藏
文章浏览阅读6.7k次,点赞4次,收藏18次。第1章 Spark 概述1.1 Spark是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。主要用于数据计算,经常被认为是Hadoop框架的升级版。1.2 Spark 和Hadoop的缘分组成:Hadoop 是由Java语言编写的,部署在分布式服务器集群上,用于存储海量数据并运行分布式分析应用的开源框架;其重要组件有,HDFS 分布式文件系统、MapReduce 编程模型、Hbase 基于HDFS的分布式数据库:擅长实时随机读/写超大规模数据集。Spark是由Scala_spark大数据集群环境实验总结