文章浏览阅读757次。1.1 什么是Spark1.2 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定......
admin
文章浏览阅读685次。spark是什么 Spark 是专为大规模数据处理而设计的快速通用的计算引擎 ---百度百科由此可知,spark是一项处理大规模数据是技术,所以在了解Spark之前,熟悉以下开源的大数据技......
admin
文章浏览阅读1.6k次,点赞3次,收藏9次。hadoop伪分布实例伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:hdfs dfs -mkdir -p /user/hadoop # 已经将hadoop中的bin加入到环境变量中将本地的word.txt复制到分......
admin
文章浏览阅读2.3k次。第112讲:为什么会有第一代大数据技术Hadoop和第二代大数据技术Spark?学习笔记本讲开始hadoop深入浅出实战经典部分本讲内容:1.第一代大数据技术Hadoop2.第二代大数据技术Spark hadoop开启了人们大规模普及化......
admin
文章浏览阅读149次。大数据技术之_19_Spark学习_06_Spark 源码解析小结_spark大数据分析源码解析...
admin
文章浏览阅读205次。大数据分析技术与应用一站式学习(值得收藏)_分布式数据处理技术 spark...
admin
文章浏览阅读247次。一、本质Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程二、mapreduce有什么问题1.调度慢,启动map、reduce太耗时2.计算慢,每一步都要保存中间结果落磁盘3.API抽象简单,只有map和re......
admin
文章浏览阅读1.7k次,点赞3次,收藏22次。大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例_大数据技术之_19_spark学习_07_spark 性能调优 数据倾斜......
admin
Spark中有2类角色,一个是Master类似Namenode做管理一个是Worker类似DataNode是干活的。将spark安装包【】解压至【中各个目录含义如下:bin可执行脚本配置文件data 示例程序使用数据examples 示例程序jars 依赖 jar 包集群管理命......
admin
郝少擅长大数据,Spark技术经验,Java及框架,等方面的知识...
admin
文章浏览阅读109次。第1章 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.2 RDD......
admin
文章浏览阅读95次。SparkStreaming编程todo_spark大数据技术与应用第四章代码...
admin
文章浏览阅读169次。大数据技术之_19_Spark学习_07_Spark 性能调优小结_大数据技术之_19_spark学习_07...
admin
kxr0502擅长大数据技术-Scala,spark,HA,等方面的知识...
admin
文章浏览阅读105次。1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。abstractclassRDD[T:ClassTag](@transientprivatevar_sc:SparkContext,@transientprivatevardeps:Seq[Dependency[_]])......
admin
资源浏览查阅156次。在我博客中的三个基础章节第1章Spark概述第2章Spark第3章案更多下载资源、学习资料请访问CSDN文库频道....
admin
文章浏览阅读324次。第1章 Spark概述 什么是Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453