特牛网址导航

【spark-基础】基础概念及常见api_spark approxquantile-CSDN博客

网友收藏
文章浏览阅读3.2k次。能今天做好的事就不要等到明天。以梦为马,学习趁年华。1、学习路线一份好的roadmap很重要2、技术笔记2.1 RDDRDD是弹性分布式数据集,是一组不可变的JVM对象的分布及,可以执行高速运算,是spark的核心。2.1.1 创建RDD# 集合 生成ParallelCollectionRDDdata = sc.parallelize([('alex',22),('alex',22),('alex',22),('alex',22)])# 文件 4代表分区数 生成MapPa._spark approxquantile