文章浏览阅读3.8k次,点赞3次,收藏5次。Spark学习笔记2:Spark2.2伪分布式模式2.1 安装JDK8在前一节http://blog.csdn.net/chengyuqiang/article/details/77671748我们已经安装了JDK8,这里不再累述。2.2 安装Scala(1)获取下载地址 通过Spark官网下载......
admin
文章浏览阅读1.7w次,点赞6次,收藏50次。1、图(GraphX)1.1、基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来......
admin
文章浏览阅读297次。一、Spark UI解读Jobs页面可以看到所有Jobs的执行情况,job的数量取决于action算子的数量。Stages页面列出所有Stage的执行情况。Spark stage切分是按照宽依赖来区分的,因此粒度上要比job更细一些。Storage页面显示所......
admin
文章浏览阅读1.6k次。聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常检测,......
admin
如何使用spark或者hive sql将Excel文件加载为一张hive表,Spark SQL和Hive中的函数(五):SparkSQL函数算子,Spark SQL和Hive中的函数(四)常用的开窗函数,大数据...
admin
文章浏览阅读63次。1、准备安装包2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件,将 slave 节点的 hostname 写在文件中,每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文......
admin
文章浏览阅读821次。说明sparkMLlib是Spark提供的可扩展的机器学习库。MLlib中已经包含了一些通用的学习算法和工具,如:分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具,MLlib提供的API主要分为以下两类。sp......
admin
文章浏览阅读364次。文章大纲扩展spark 原始的算法算法对应参考文献扩展spark 原始的算法比如,我们使用 列选择等一些内容时候,使用select 或者 randomsplit 想把他们加入到 pipeline 中取,因为这些方法不是transform ,那么我们可以......
admin
Maven开发Spark程序,Spark安装,scala函数式编程...
admin
文章浏览阅读523次。 Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程......
admin
文章浏览阅读385次。第三节、Spark应用运行流程和运行模式一、Spark应用运行流程1.程序的执行流程:当执行一个应用时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应用 程序代码和文件,然后在Executor上执行任......
admin
文章浏览阅读909次。大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程 + Spark 内存管理与分配 + Spark 部署模式_spark sql jra...
admin
文章浏览阅读307次。文章目录1. scala简介1.1. 什么是scala1.2. 为什么要学习scala1.3. [Scala官网](https://www.scala-lang.org/)1.4. `Spark,Kafka,Flink都是由Scala语言编写`1.5. Java能做的,Scala都能做,Java不能做的,Scala也能做。Scala可以任意调用Java......
admin
文章浏览阅读1.9k次。更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.4,ganglia-3.6.1系统:ubuntu 14.041.理解1.1 ganglia的概述 Ganglia是UC Berkeley发起的一个开源集群监视项目,设......
admin
资源浏览查阅71次。笔记内容介绍:第一部分:虚拟机环境第二部分:大数据处理第三部分:数据结果可视化大作业内容介spark大作业更多下载资源、学习资料请访问CSDN文库频道....
admin
本文给想进入大数据领域的朋友提供了一系列的资源,由浅入深,比如“需要了解的51条大数据术语”、“学习python的四个理由”、“十一个必须要参加的大数据会议”等有趣的话题......
admin
文章浏览阅读878次。本文转自:Spark机器学习入门·编程(scala/java/python)实现分析商店购买记录http://www.aboutyun.com/forum.php?mod=viewthread&tid=20707(出处: about云开发)Spark安装目录[Bash shell] 纯文本查看 复制代码?1_spark java 预测用户购买...
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453