文章浏览阅读5.8k次,点赞3次,收藏50次。1.环境配置Hadoop安装与安装前的环境配置流程•如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户。在下载好的ubuntu中需要创建hadoop用户,并为其设置......
admin 2024-01-22
文章浏览阅读842次。概念流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低,如用户点击流。因此,当事件出现时就应该立即......
admin 2024-01-22
文章浏览阅读2.9k次,点赞2次,收藏17次。我们用的是CDH 6.3.2,内置的spark版本是2.4.0,有两个问题:cdh6之后就取消了spark-sql客户端hudi 0.9.0 仅支持 spark 2.4.4之后的版本所以就想自己安装个spark使用。1.下载spark 3.1.2 版本源码https://spa......
admin 2024-01-23
文章浏览阅读4.7w次,点赞41次,收藏233次。机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互......
admin 2024-01-22
文章浏览阅读189次。在《Spark大数据开发之旅之一:准备工作》中,我们简单介绍了Spark大数据分析涉及到的软件,这一节中,我们介绍一下这些软件的安装。一、安装JDK8我之前的一篇文章中,介绍了如何使用apt方式安装JDK8,这......
admin 2024-01-22
文章浏览阅读1k次,点赞2次,收藏6次。安装环境:Linux CentOS7https://blog.csdn.net/qq_43598179/article/details/106070236_spark-3.1.2-bin-without-hadoop.tgz...
admin 2024-01-22
文章浏览阅读200次。SparkSQL概述(1)一、SparkSQL概述二、DataFrame三、Dataset:类型安全的结构化API四、DataFrame与 Dataset的比较一、SparkSQL概述我们知道Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的......
admin 2024-01-22
文章浏览阅读355次。大数据之Spark 核心编程概一、RDD1、什么是 RDD2、核心属性二级目录三级目录Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:➢......
admin 2024-01-22
文章浏览阅读711次。错误提示:Diagnostics: Container [pid=5677,containerID=container_e01_1594549493537_0002_02_000001] is running beyond virtual memory limits. Current usage: 269.4 MB of 1 GB physical memory used; 2.3 GB of 2.1 GB virtual memory used. Killing container.20/07/12 _spark vi......
admin 2024-01-22
文章浏览阅读2.8k次,点赞3次,收藏5次。spark算子1. map算子(改变结构就用map)mapPartitions() 以分区为单位执行Map思考一个问题:map和mapPartitions的区别?3. mapPartitionsWithIndex()带分区号4. flatMap()扁平化5. glom()分区转换数组6. groupBy()......
admin 2024-01-23
文章浏览阅读390次。NIO,AIO,BIOBIO:同步阻塞模型,一个客户端连接 对应 一个处理线程, 会导致线程阻塞,浪费线程资源NIO:同步非阻塞模型,服务器实现模式为一个处理线程对应多个客户端的连接,客户端发送的连接请求都......
admin 2024-01-22
文章浏览阅读2.1k次。ActiveMQ我们先看ActiveMQ。其实一般早些的项目需要引入消息中间件,都是使用的这个MQ,但是现在用的确实不多了,说白了就是有些过时了。我们去它的官网看一看,你会发现官网已经不活跃了,好久才会更......
admin 2024-01-22
文章浏览阅读3.6k次。 问题原因:按照网上的诸多博客等想使用Spark直接读取Hive,但不使用Hivejdbc的方式,在导入两个xml之后只能读取到default这个数据库,按照诸多网上的教程,修改xml还是未能起到作用(hive不能称为一个数据......
admin 2024-01-23
文章浏览阅读157次。1.RDD执行原理 RDD是spark框架中用于数据处理的核心模型,spark框架执行数据处理时,需要申请资源后将应用程序的数据处理逻辑拆分为一个个的计算任务,并将其发到已经分配资源的计算节点上,按照指定......
admin 2024-01-23
文章浏览阅读318次。代码 val ds = Seq( (Some("rowkey1"), "strname1", Some(1), 1.1f, 1.1d, 1L) , (None, "strname1", None, 1.1f, 1.1d, 1L) ).toDF( "rowKey" , "strName" , &quo......
admin 2024-01-23
文章浏览阅读3.4k次,点赞3次,收藏5次。Spark Sort-Based Shuffle内幕彻底解密本期内容:1 为什么使用Sort-Based Shuffle2 Sort-Based Shuffle 实战3 Sort-Based Shuffle 内幕4 Sort-Based Shuffle的不足一、为什么需要Sort Based Shuffle_spark sort-based shuffle by pas......
admin 2024-01-22
文章浏览阅读8k次。version 1.0.1 + Web Server Log Analysis with Apache SparkThis lab will demonstrate how easy it is to perform web server log analysis with Apache Spark.Server log analysis is an ideal use case for Spark_web log analysis use spark...
admin 2024-01-22
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453