文章浏览阅读1.9w次,点赞4次,收藏44次。_spark语法...
admin 2024-01-21
文章浏览阅读1.9w次,点赞4次,收藏44次。_spark语法...
admin 2024-01-21
文章浏览阅读3k次。1.Scala简介 Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。 java之父JamesGosling也曾说过,在java虚拟机JVM上,他除了用java......
admin 2024-01-23
文章浏览阅读712次。# pandas 和 pyspark dataframe 互换# pandas 里的每一列里的所有元素必须是同一种 type 类型才可转换spark_df = spark.createDataFrame(pandas_df)pandas_df = spark_df.toPandas()# 保存分区表(覆盖 & 追加)df.write.saveAsTable("db.table&......
admin 2024-01-23
文章浏览阅读267次。Spark Streaming是Spark Core API(Spark RDD)的扩展,支持对实时数据流进行可伸缩、高吞吐量及容错处理。数据可以从Kafka、Flume、Kinesis或TCPSocket等多种来源获取,并且可以使用复杂的算法处理数据,这些算法由map()......
admin 2024-01-23
文章浏览阅读2.1k次。Flink():实时性高,吞吐量高,离线+实时算子较为丰富Spark Streaming():有延迟(毫秒级别),吞吐量高,离线+实时算子丰富,可以做机器学习,图计算(生态圈)flink的批处理实际上流处理,只是把一个批处......
admin 2024-01-23
文章浏览阅读203次。1.继承Aggregator2.实现方法3.注册函数4.通过DataSet数据集获取结果package com.wxx.bigdata.sql03 import org.apache.spark.sql.{Encoders, SparkSession}import org.apache.spark.sql.expressions.Aggregator object CustomerUDAFClassAPP { def main(args: Array[String......
admin 2024-01-21
文章浏览阅读972次。sparksql的hints语法【官网摘抄】_sparksql hints...
admin 2024-01-23
文章浏览阅读5.4k次,点赞2次,收藏6次。前言因为spark集群的换代升级, 需要从scala 2.11 升级到scala 2.12 spark2升级到spark 3。本篇博客主要讲述南国在将spark 作业升级时遇到的问题和解决办法。具体步骤1.升级spark相关依赖针对于pom......
admin 2024-01-23
资源浏览查阅57次。scala是一种基于JVM的面向对象的函数编程,scala编程相对于java而言代码整洁、开发效率更sparkgetOrElse用法更多下载资源、学习资料请访问CSDN文库频道....
admin 2024-01-22
文章浏览阅读1.2k次。spark on hive1、spark on hive介绍(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据(3)接下来就可以通过spark sql来操作hive......
admin 2024-01-24
文章浏览阅读252次。目录查看 spark-sql 的 SQL语法树spark-sql 的优化1、缓存2、广播小表 -- 实现mapjoin -- hint在代码中实现优化整合 hive 之后,通过代码操作查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql -......
admin 2024-01-24
文章浏览阅读3.1k次。import spark.implicits._加上这段代码,调用toDF()的时候,编译器就会自动帮我们传入某些约定好的属性,节省代码_scala todf...
admin 2024-01-23
文章浏览阅读957次。Scala入门官网:https://www.scala-lang.org/课程版本:2.13.1HelloWorld创建一个scala工程创建一个包创建HelloWorld.scala编写代码object HelloWorld { def main(args: Array[String]): Unit = {//入口函数 pr..._flink scala入门实践...
admin 2024-01-23
文章浏览阅读93次。九.数组操作 val arr = Array(Array(1, 2, 5, 4), Array(3, 6, 7, 8), Array(9, 10)) //flatten只能一次压一层 val flatten = arr.flatten println(flatten.toBuffer) val lines = Array("spark hadoop flink spark", "spark spark flink", "s......
admin 2024-01-23
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453