文章浏览阅读6.7k次,点赞4次,收藏18次。第1章 Spark 概述1.1 Spark是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。主要用于数据计算,经常被认为是Hadoop框架的升级版。1.2 Spark 和Hadoop的缘分组成:Hadoop ......
admin
文章浏览阅读387次。package cn.spark.study.coreimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject TransformationOperation { def main(args: Array[String]_spark学习245讲...
admin
文章浏览阅读677次。spark shuffle操作的两个特点:1.spark中bucket缓存默认是100KB,写入数据达到刷新到磁盘的阈值后,就会将数据一点一点刷新到磁盘。如果内存缓存过小,会发生过多的磁盘IO操作,需要根据实际的业务情况进行优......
admin
文章浏览阅读517次。零、本讲学习目标了解Spark HA集群工作原理掌握搭建Spark HA集群基本步骤能够测试Spark HA集群的高可用性一、搭建Spark HA集群(一)Spark HA集群概述Spark Standalone和大部分Master/Slave模式一样,都存在Master单点故障......
admin
文章浏览阅读8.3k次,点赞2次,收藏4次。基本介绍Spark创建流式应用的本质,还是依赖了spark最核心的那些技术,只是在这些技术上又封装了一层流式接口。Spark的streaming机制简单来说,就是将连续的时间序列切割成不同的离散时......
admin
文章浏览阅读854次。一 MLlib简单介绍MLllib目前分为两个代码包: spark.mllib 包含基于RDD的原始算法API。 spark.ml 则提供了基于DataFrames 高层次的API,可以用来构建机器学习管道。本文用基于DataFrame的API,DataFrame结构与MySQL表基本一......
admin
文章浏览阅读411次。在Spark生态圈当中,MLlib组件,作为机器学习库而存在,在大数据分析、数据挖掘等数据处理操作上,提供重要的支持。学习Spark,对于MLlib组件的学习,也可以有相应程度的掌握。今天的大数据开发学习分享......
admin
文章浏览阅读119次。spark学习笔记—核心算子(二)distinct算子 def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope { def removeDuplicatesInPartition(partition: Iterator......
admin
第1讲:大数据最火爆语言Scala光速入门,第2讲:Scala面向对象彻底精通及Spark源码阅读,第3讲:Scala函数式编程彻底精通,scala,spark...
admin
文章浏览阅读337次。RDD的持久化其实就是对RDD的数据进行缓存处理,为什么用到缓存?在RDD得到执行过程中不会保存数据,只会保存血缘关系(依赖关系),那么如果一个RDD被多个RDD依赖就会出现,一个依赖之后数据就没了,另......
admin
用spark实现row_number(),Spark中的DataFrame和DataSet,Spark中广播变量和累加器,scala,spark...
admin
文章浏览阅读581次。目录(一)定长数组1、数组定义(1)定义数组时初始化数据(2)定义时指定数组长度后赋值2、数组遍历(1)传统for循环方式(2)增强for循环方式(3)利用foreach算子遍历数组(4)数组求和3、常用方法(1......
admin
Spark机器学习的介绍,windows下检查是否安装了JDK以及查看JDK安装路径 windows下检查是否安装了JDK以及查看JDK安装路径,JAVA JDK SBT...
admin
文章浏览阅读182次。本文主要是记录一些常用的Transformation算子和Action算子一、Transformation变换算子1.Value数据类型这种变换并不触发提交作业,针对处理的数据项是Value 型的数据。(1)输入分区和输出分区一对一map、flatMap、glom、Ma......
admin
文章浏览阅读5.4k次。1.Spark SQL 概述(1)为什么需要SQL1)事实上的标准2)简单易学Hive:类似于sql的Hive QL语言 sql==>mapreduce 特点:基于mapreduce 改进:基于tez sparkSpark:分布式的基于内存的计算框架hive on spark ==> shark......
admin
文章浏览阅读154次。========== Spark SQL ==========1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。2、Spark SQL 的特点: (1)和 Spark Core 的无缝集......
admin
嘻哈吼嘿呵擅长Flink,Spark,深度学习,等方面的知识,嘻哈吼嘿呵关注hive,storm,spark,hadoop,etl领域....
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453