文章浏览阅读725次。ES-Hadoop实现了Hadoop生态(Hive、Spark、Pig、Storm等)与ElasticSearch之间的数据交互,借助该组件可以将Hadoop生态的数据写入到ES中,然后借助ES对数据快速进行搜索、过滤、聚合等分析,进一步可以通过Kibana来实......
admin 2024-01-23
文章浏览阅读829次。前言在之前的一篇文章中,我介绍了spark集群搭建的第一步,hadoop集群的搭建,在这篇文章中,我会继续讲解Spark集群的搭建过程。OK,假设我们现在已经成功安装并且配置好了hadoop,接下来,我们开始正式进......
admin 2024-01-24
文章浏览阅读1.4k次。1、 扫表问题表不存在hdfs,但在元数据中java.lang.RuntimeException: serious problem at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1021) at org.apache.ha......
admin 2024-01-24
文章浏览阅读2.9k次。这是Spark on yarn时NodeManager中一个长期在运行的辅助服务,用于提升Shuffle计算性能。默认为false,表示不启用该功能。不过一般是不开启的,因为它提升的只是executor在GC等无法向外提供数据的时候,使用NodeMan......
admin 2024-01-25
文章浏览阅读1.1k次。上面代码里的ids,就是我们需要转化成内存表的数据,然后需要转成Seq,并生成RDD,再通过RDD转成DataFrame,注意如果要使用DF,需要导入importspark.implicits._包下面的函数,这样就能隐式的直接转成DF,在转成DF......
admin 2024-01-23
文章浏览阅读719次。1、本地local模式启动SparkSession我写了个脚本做使用本地local模式启动SparkSession,想做个简单的代码测试,如下://in scalapackage com.Toby.Gaoimport org.apache.spark.sql.SparkSessionobject Test { def main(args:Array[String]){ val spark......
admin 2024-01-24
文章浏览阅读2.1w次,点赞36次,收藏34次。Spark SQL之RDD, DataFrame, DataSet详细使用_分别使用sparkrdd、dataframe、dataset、sparksql的方式计算一张离线文本的指标统...
admin 2024-02-29
文章浏览阅读148次。pyspark udf的使用。_pyspark添加spark.kryoserializer.buffer.max...
admin 2024-01-23
文章浏览阅读299次。我的环境:hadoop 2.7.1、spark 1.6.0、hive 2.0、java 1.7目标:通过java -jar xxx.jar的方式来运行提交spark应用,执行查询hive sql。问题一:首先要提一下,按照java -jar执行,会报java.lang.OutOfMemoryError: PermGen space错误,所......
admin 2024-01-24
文章浏览阅读465次。目的刚入门spark,安装的是CDH的版本,版本号spark-core_2.11-2.4.0-cdh6.2.1,部署了cdh客户端(非集群节点),本文主要以spark-shell为例子,对在cdh客户端上提交spark作业原理进行简单分析,加深理解spark-shell执行启......
admin 2024-01-24
文章浏览阅读5w次,点赞7次,收藏12次。spark scala中对RDD过滤的写法_rdd.filter...
admin 2024-01-23
文章浏览阅读149次。一、基于排序机制的wordcount程序1、需求spark.txt对文本文件内的每个单词都统计出其出现的次数。按照每个单词出现次数的数量,降序排序2、实战① 基于javapackage cn.spark.study.core;import org.apache.spark.SparkConf;import......
admin 2024-01-23
文章浏览阅读366次。编者注:不要错过有关如何使用Apache Spark创建数据管道应用程序的新的免费按需培训课程-在此处了解更多信息。 这篇文章将帮助您开始在MapR沙盒上将Apache Spark GraphX和Scala一起使用。 GraphX是用于图并行计算......
admin 2024-01-23
文章浏览阅读1k次,点赞2次,收藏7次。Shared Variables(共享变量)在 Spark 程序中,当一个传递给 Spark 操作 (例如 map 和 reduce) 的函数在远程节点上面运行时,Spark 实际上操作的是这个函数所用变量的一个独立副本。这些在Driver端......
admin 2024-01-23
文章浏览阅读639次。大数据之Spark 运行环境概述 完整使用一、Spark 运行环境1、Local 模式1)解压缩文件2)启动 Local 环境2、命令行工具3、退出本地模式4、提交应用二、Standalone 模式1、解压缩文件2、修改配置文件1) 进入解压缩后......
admin 2024-01-22
文章浏览阅读2k次。一、问题表现首先import报错是因为没有导入相应的jar包,缺少某个库。找到之后,需要将该库、jar包,加入到当前项目,使得代码中的import xxx得以正常导入二、解决方法1、去apache(点击这里可直接进入)官......
admin 2024-01-23
文章浏览阅读328次。版权声明:本文为博主原创文章,未经博主允许不得转载!!欢迎访问:https://blog.csdn.net/qq_21439395/article/details/82817475交流QQ: 824203453 Spark RPC简介 RPC(Remote Procedure Call Protocol)--远程过程调用协议RPC是分布式项目的基......
admin 2024-01-24
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453