文章浏览阅读89次。========== Spark 的监控方式 ==========1、Spark Web UI Spark 内置应用运行监控工具(提供了应用运行层面的主要信息--重要)2、Ganglia 分析集群的使用状况和资源瓶颈(提供了集群的使用状况--资源......
admin
文章浏览阅读185次。阅读路线:Hadoop与Spark比较Spark的安装Spark知识点一、Hadoop与Spark比较1.简单的比较刚开始学习Spark的时候,自己总是会想当然的理解两者之间的关系。Hadoop和Spark的处理任务有很多是一样的,比如说他们都是有数......
admin
Spark学习笔记(15)——广播变量,Spark学习笔记(14)——累加器,Spark学习笔记(13)——RDD文件读取与保存,大数据,spark...
admin
文章浏览阅读556次。第4章 凸优化算法4.1 梯度下降4.2 牛顿法4.3 拟牛顿法4.4 BFGS 算法第5章 L1、L2 正则化5.1 从经验风险最小化到结构经验最小化5.2 范数与正则项5.3 贝叶斯先验第6章 线性回归算法6.1 数学模型6.2 线性回归的应用6.2 S......
admin
文章浏览阅读1.2w次,点赞7次,收藏22次。1.下载eclipse我下载的是待scala SDK的eclipse,下载地址如下: http://scala-ide.org/download/sdk.html 我的要放在ubuntu下写程序,所以下载linux 64位的。 下载完成后自行解压。2.单机下运行WordCount程序......
admin
文章浏览阅读144次。========== Spark Streaming 是什么 ==========1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark Streaming ......
admin
文章浏览阅读759次。本系列文章内容全部来自尚硅谷教学视频,仅作为个人的学习笔记一、RDD的创建在 Spark 中创建 RDD 的创建方式可以分为四种:1.从集合(内存)中创建 RDD //TODO 准备环境 //*号表示本地环境中最大可用核数......
admin
文章浏览阅读1.8k次,点赞2次,收藏5次。官网链接:Monitoring and Instrumentation - Spark 3.2.1 Documentation有几种方法可以监控Spark应用程序:Web UI、metrics 以及外部工具。Web UI每个SparkContext都会启动一个web UI,其默认端口为4040,并且这个......
admin
文章浏览阅读3.6k次。声明:本文基于spark的programming guide,并融合自己的相关理解整理而成 Spark应用程序总是包含着一个driver program(驱动程序),它执行着用户的main方法,并且执行大量的并行操作(parallel operations)在集群上.概述 Spa......
admin
文章浏览阅读4.9k次,点赞4次,收藏12次。Master结点存在单点故障,所以要借助zookeeper,至少启动两台Master结点来实现高可用,配置方案比较简单先停止所有Spark服务,然后安装zookeeper,并启动zookeeper集群规划:主机名 IP地址 ......
admin
小飞猪666擅长hadoop,机器学习,spark,等方面的知识...
admin
【Spark】RDD的序列化问题,【Spark】日志信息打印——问题解决,spark,大数据,big data...
admin
关于spark组件通信--RPC,【学习笔记】大数据技术之SparkStreaming,【学习笔记】大数据技术之SparkSQL,大数据...
admin
文章浏览阅读562次。熟悉 Spark 相关概念什么是 Spark(官网:http://spark.apache.org)Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大 学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 ......
admin
文章浏览阅读562次。熟悉 Spark 相关概念什么是 Spark(官网:http://spark.apache.org)Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大 学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 ......
admin
文章浏览阅读562次。熟悉 Spark 相关概念什么是 Spark(官网:http://spark.apache.org)Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大 学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 ......
admin
文章浏览阅读774次。Master资源调度分配算法:1.Application的调度算法有两种,一种是spreadOutApps,另一种是非spreadOutApps。2.spreadOutApps,会将每个Application要启动的executor都平均分配到各个worker上去。(比如有10个worker,20个cpu core要......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453