过往记忆-特牛生活网-新媒体运营导航,不一样的分类目录平台,网址导航大全,行业供求信息

Spark: sortBy和sortByKey函数详解 – 过往记忆

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey......

2024-01-23

Presto multi-master Coordinator 简介 – 过往记忆

背景 Presto 的架构最初只支持一个 coordinator 和多个 workers。多年来，这种方法一直很有效，但也带来了一些新挑战。使用单个 coordinator，集群可以可靠地扩展到一定数量的 worker。但是运行复杂、多阶段查询的大集群可能会使供......

2024-01-23

几种常见的 Kafka 集群监控工具 – 过往记忆

一个功能健全的kafka集群可以处理相当大的数据量，由于消息系统是很多大型应用的基石，因此broker集群在性能上的缺陷，都会引起整个应用栈的各种问题。 Kafka的度量指标主要有以下三类： 1.Kafka服务器（Kafka）指标 2.生产者指......

2024-01-23

Starburst 性能白皮书一 – Presto CBO 优化 – 过往记忆

Depending on the complexity of your SQL query there are many, often exponential, query plans that return the same result. However, the performance of each plan can vary drastically; taking only seconds to finish or days...

2024-01-23

Starburst 性能白皮书三 – Presto Dynamic Filtering – 过往记忆

Dynamic filtering optimizations significantly improve the performance of queries with selective joins by avoiding reading of data that would be filtered by join condition. In this respect, dynamic filtering is similar to...

2024-01-23

Trino Summit 2021 会议视频和 PPT 下载 – 过往记忆

Trino Summit 2021 由 Starburst 于 2021年10月21日-22日通过线上的方式进行。主要分享嘉宾有 Trino 的几个创始人、Apache Iceberg 的创建者 Ryan Blue 以及来自 DoorDash 的 Akshat Nair 和 Satya Boora 等。如果想及时了解Spark、Hadoop或者HBase相关的文章......

2024-01-23

Apache Spark 2.0.0正式发布及其功能介绍 – 过往记忆

《Apache Spark 2.0重大功能介绍》：/archives/1721 《Apache Spark作为编译器：深入介绍新的Tungsten执行引擎》：/archives/1679 《Spark 2.0技术预览：更容易、更快速、更智能》：/archives/1668 Apache Spark 2.0.0于2016-07-27正式发布。它是2.x版本线上......

2024-01-23

大规模 Hadoop 升级在 Pinterest 的实践 – 过往记忆

Monarch 是 Pinterest 的批处理平台，由30多个 Hadoop YARN 集群组成，其中17k+节点完全建立在 AWS EC2 之上。2021年初，Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支（特性和bug修复）的复杂性不断增加，我们决定是时候进行版本......

2024-01-23

大规模 Hadoop 升级在 Pinterest 的实践 – 过往记忆

Monarch 是 Pinterest 的批处理平台，由30多个 Hadoop YARN 集群组成，其中17k+节点完全建立在 AWS EC2 之上。2021年初，Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支（特性和bug修复）的复杂性不断增加，我们决定是时候进行版本......

2024-01-23

精心收集的Hadoop学习资料(持续更新) – 过往记忆

本博客分享的其他视频下载地址：《传智播客Hadoop实战视频下载地址[共14集]》、《传智播客Hadoop课程视频资料[共七天]》、《Hadoop入门视频分享[共44集]》、《Hadoop大数据零基础实战培训教程下载》、《Hadoop2.x 深入浅出企业级应......

2024-01-23

使用HttpClient通过post方式发送json数据 – 过往记忆

有时候我们在发送HTTP请求的时候会使用到POST方式，如果是传送普通的表单数据那将很方便，直接将参数到一个Key-value形式的Map中即可。但是如果我们需要传送的参数是Json格式的，会稍微有点麻烦，我们可以使用HttpClient类库提......

2024-01-23

Apache Flink 在米哈游的落地实践 – 过往记忆

摘要：本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。本篇内容主要分为四个部分： 1.背景介绍 2.实时平台建设 3.实时数仓和数据湖探索 4.未来发展与展望作者：实时计算负责人张剑背景介绍米哈游成立于20......

2024-01-23

Apache Hadoop 3.x 最新状态以及升级指南 – 过往记忆

本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference，分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang，会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注过往记忆大数据微信公众号，并......

2024-01-23

Apache Hadoop 3.x 最新状态以及升级指南 – 过往记忆

本文来自 2019年9月23日至26日在纽约举办的 Strata Data Conference，分享者是来自 Cloudera 的 Wangda Tan 和 Wei-Chiu Chuang，会议页面 https://conferences.oreilly.com/strata/strata-ny-2019/public/schedule/detail/77506。请关注过往记忆大数据微信公众号，并......

2024-01-23

iteblog_hadoop公众号所有资料列表 – 过往记忆

到目前为止，本博客公众号已经有很多资料了，为了方便大家获取，我将 iteblog_hadoop 公众号的资料全部列到这里，供大家获取。欢迎关注本博客公众号及时了解大数据相关技术文章。 .iteblog_hadoop em{color:red;} 如果想及时了解Spark......

2024-01-23

Tardigrade：Trino 解决 ETL 场景的方案 – 过往记忆

Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询，也就是我们常说的 Ad-Hoc Query，很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越......

2024-01-23

Tardigrade：Trino 解决 ETL 场景的方案 – 过往记忆

Presto 在 Facebook 的诞生最开始是为了填补当时 Facebook 内部实时查询和 ETL 处理之间的空白。Presto 的核心目标就是提供交互式查询，也就是我们常说的 Ad-Hoc Query，很多公司都使用它作为 OLAP 计算引擎。但是随着近年来业务场景越......

2024-01-23