spark使用-特牛网址导航

SparkShell操作_使用spark shell命令,完成以下编程任务,写出完整的操作命令。现有企业产品二月份-CSDN博客

文章浏览阅读1k次。这是借鉴别人的整理而来，本人抱着知识共享的态度，希望大家转载说明出处谢谢大家。_使用spark shell命令,完成以下编程任务,写出完整的操作命令。现有企业产品二月份...

2024-01-24

SparkSql使用Catalog连接Hive_spark hive catalog-CSDN博客

文章浏览阅读1.6k次。SparkSql使用Catalog连接Hive目录SparkSql使用Catalog连接Hive一、Catalog二、Catalog类型三、HiveCatalog连接Hive获取数据一、CatalogCatalog 提供了元数据信息，例如数据库、表、分区、视图以及数据库或其他外部系统中存储......

2024-01-23

Spark指南——第三章：SparkSQL编程—— DataFrame（2）_(3)综合使用spark-sql相关知识,包括dataframe列的类型更改,增加列,创建udf函数-CSDN博客

文章浏览阅读359次。SparkSQL编程（1）一、SparkSession二、DataFrame1.创建DataFrame①通过数据源创建DataFrame②从RDD转换创建DataFrame1.方式一：Case Class方式2.方式二：createDataFrame方式③从Hive Table查询创建2.使用SQL风格编程① 对DataFrame创建......

2024-01-22

Spark为何使用Netty通信框架替代Akka_akka 和 netty关系-CSDN博客

文章浏览阅读8k次。解决方案一直以来，基于Akka实现的RPC通信框架是Spark引以为豪的主要特性，也是与Hadoop等分布式计算框架对比过程中一大亮点，但是时代和技术都在演化，从Spark1.3.1版本开始，为了解决大数据块（如shuffle）......

2024-01-23

Spark的概述|Local模式的安装使用|官方WordCount案例|案例过程分析_local[2]-CSDN博客

文章浏览阅读286次。Spark内置模块Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。Spark SQL：是S......

2024-01-23

使用jmxtrans监控Spark JVM信息到grafana显示_jmx数据怎么导入grafna-CSDN博客

文章浏览阅读2.8k次。1、下载jmxtransjmxtrans作为agent部署在需要采集数据的节点上，主要用于数据采集和发送.2、修改{jmxtrans}/conf下配置文件配置文件内容需要json格式，名字可自取。{ "servers" : [{ "port" : "8085&......

2024-01-24

Spark RDD使用详解1--RDD原理_rdd 调用链-CSDN博客

文章浏览阅读2.6w次，点赞21次，收藏55次。在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed Dataset，RDD）。它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集......

2024-01-24

idea 使用big data tools中 spark-submit remote远程提交任务卡住_big data tools 卡住-CSDN博客

文章浏览阅读381次。spark _big data tools 卡住...

2024-01-23

Spark：用Scala和Java实现WordCount_使用scala语言完成wordcount通过截图-CSDN博客

文章浏览阅读9.6w次，点赞8次，收藏25次。http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文......

2024-01-22

关于Spark中数据倾斜的几种好的解决方案_当使用spark产生了数据倾斜的情况时,请问有哪些方法可以解决这个问题呢?-CSDN博客

文章浏览阅读273次。前言本文是介绍的是开发spark极其核心的地方，可以说懂得解决spark数据倾斜是区分一个spark工程师是否足够专业的标准，在面试中以及实际开发中，几乎天天面临的都是这个问题。原理以及现象先来解释一下......

2024-01-23

大数据之Spark 快速上手概述完整使用(第二章)_<dependency> <groupid>org.apache.spark</groupid> <-CSDN博客

文章浏览阅读2.1k次。大数据之Spark快速上手概述一、实操1、增加 Scala 插件2、增加依赖关系3、WordCount4、异常处理一、实操1、增加 Scala 插件2、增加依赖关系<dependencies> <dependency> <groupId>org.apache.spark</groupId> <ar......

2024-01-22

6.anaconda安装配置至可以使用spark_连接虚拟机中的anacondaspark-CSDN博客

文章浏览阅读223次。root下安装一.sh安装sh Anaconda3-2020.11-Linux-x86_64.sh有yes or no选yes 其余全回车二.配置环境变量vi /etc/profile1.末尾添加export PATH=$PATH:/root/anaconda3/bin2.刷新环境变量source /etc/profile3.检验是否安装conda -Vconda 4.9.2三.jupyter1......

2024-01-23

【spark】使用kryo序列化和压缩，减少数据缓存和传输的大小_kryo 压缩-CSDN博客

文章浏览阅读1.3k次。本文其实主要是想说说spark的kryo机制和压缩！首先spark官网对于kryo的描述：http://spark.apache.org/docs/latest/tuning.html#data-serialization官网相关参数：http://spark.apache.org/docs/latest/configuration.html#compression-and-serialization......

2024-01-24

使用java和scala编写spark-WordCount示例_java scalawordcountlocal-CSDN博客

文章浏览阅读2.7k次。前言：最近博主在学习spark相关知识，感觉是个挺不错的框架，它的分布式处理大数据集的思想还是值得我们好好学习的。个人感觉以后java开发肯定不仅仅是SSM这一套东西了，当数据量越来越大时，我......

2024-01-22

5.1 Spark的安装与使用_nav 第1关:scala语言开发环境的部署-CSDN博客

文章浏览阅读7.1k次，点赞3次，收藏43次。第一关 Scala语言开发环境的部署 1.下载解压在Scala官网根据平台选择下载Scala的安装包scala-2.17.7.tgz解压到/app目录下：mkdir /app //创建 app 目录cd /opttar -zxvf scala-2.12.7.tgz -C /appeducoder平台已......

2024-01-21

大数据之SparkStreaming 完整使用 (第十一章)_spark.streaming.receiver.maxrate-CSDN博客

文章浏览阅读451次。数“spark.streaming.receiver.maxRate”的值来实现，此举虽然可以通过限制接收速率，来适配当前。到的数据都作为RDD存在，而DStream是由这些RDD所组成的序列(因此得名“离散化”)。为了更好的协调数据接收速率与......

2024-01-22

spark流数据处理：SparkStreaming的使用_sparksparkling真打实践资源-CSDN文库

资源浏览查阅101次。spark流数据处理：SparkStreaming的使用,SparkStreaming是Spark核心API的扩展，用于可伸缩、高吞吐量、可容错地处理在线流数据。SparkStreaming可以从很多数据源获取数据，比如：Kafka、Flume、Twitter、ZeroMQ、Kinesis或TCP连......

2024-01-24

友情链接申请要求：不违法不降权权重相当请联系QQ：737597453