文章浏览阅读2.3k次。一、使用Java语言开发sparkstreaming完成WordCountpackage Test;import org.apache.spark.SparkConf;import org.apache.spark.streaming.Durations;import org.apache.spark.streaming.api.java.JavaPairDStream;import org.apache.spark.streaming.api.java.JavaReceiverInputDSt_j......
admin
文章浏览阅读300次。算子,听起来很高大上的样子。我没有接触之前觉得学起来会很难!从认知心理学角度来看,解决问题是将问题的初始状态,通过一系列的操作对问题的状态进行转换,然后将问题解决。这里的操作就是指算......
admin
文章浏览阅读6.2k次。SparkSql入门(基本信息的调用)_spark框架使用...
admin
文章浏览阅读338次。spark-shell spark-sql_spark onyarn 如何登录spark shell...
admin
文章浏览阅读478次。目录一、Spark概述1.1spark框架与hadoop框架1.2Spark的内置模块1.3Spark的特点二、Spark的使用2.1Spark的运行模式2.2Local模式2.3Spark集群中的角色介绍2.4Standalone模式2.5YARN模式三、WordCount案例一、Spark概述Spark是一种基于......
admin
文章浏览阅读301次。如何通过python 脚本的方式扩展spark 的 处理能力呢?_spark mllib python...
admin
文章浏览阅读235次。大数据之Spark 源码分析_spark大数据分析与实战源代码...
admin
文章浏览阅读673次。Spark RDD 中提供了丰富的 行动算子可以帮助我们完成对RDD数据的一些常用统计、聚合等业务的操作,下面将常用的行动算子进行使用总结;函数说明案例操作代码中将列表中的数据进行两两聚合,运行代码,......
admin
文章浏览阅读1.7k次。spark最近出了2.0版本,其安装和使用也发生了些许的变化。笔者的环境为:centos7.该文章主要是讲述了在centos7上搭建spark2.0的具体操作和spark的简单使用,希望可以给刚刚接触spark的朋友一些帮助。按照惯例,......
admin
文章浏览阅读737次。(接上篇)Spark应用实例接下来用具体实例解决一些常见的转换。所研究的数据集是Movielens(https://github.com/MLWhiz/spark_post),该数据集是一个稳定基准数据集。1700部电影中的1000名用户给出了100000份评分,发......
admin
文章浏览阅读1k次,点赞3次,收藏11次。Spark实战项目——电商指标统计一、引言 在实战项目中,根据不同的需求进行编程,由于需求不同,核心的计算逻辑会不同,但是其他的一些代码,如获取环境变量、读取文件等等......
admin
文章浏览阅读459次。传递函数的场景当我自己封装好一个 RDD 的算子,需要使用,此时需要主要的是,初始化工作是在Driver 端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要把对象序列化的。封......
admin
文章浏览阅读213次。大数据之Spark 概述 完整使用一、Spark 是什么1、Spark and Hadoop二级目录三级目录一、Spark 是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1、Spark and Hadoop在之前的学习中,Hadoop 的 MapRe......
admin
文章浏览阅读445次。内容简介一、Spark二次排序的概念二、实现二次排序的详细步骤(Java语言)三、二次排序代码演示1.Java版本2.Scala版本四、总结一、Spark二次排序的概念排序操作是数据处理过程中的常用操作步骤,Spark提供了诸......
admin
文章浏览阅读364次。文章大纲扩展spark 原始的算法算法对应参考文献扩展spark 原始的算法比如,我们使用 列选择等一些内容时候,使用select 或者 randomsplit 想把他们加入到 pipeline 中取,因为这些方法不是transform ,那么我们可以......
admin
文章浏览阅读2.1k次。Flink():实时性高,吞吐量高,离线+实时算子较为丰富Spark Streaming():有延迟(毫秒级别),吞吐量高,离线+实时算子丰富,可以做机器学习,图计算(生态圈)flink的批处理实际上流处理,只是把一个批处......
admin
文章浏览阅读310次。所有的Action算子底层都是直接或间接调用了runJob方法触发Action的collect将数据收集到Driver端,并且收集的时候,是按分区编号的顺序进行收集的,所以sort排序后的数据展示出来才能看出是排好序的,collect有一个问......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453