- 链接地址:https://yaohongxu.blog.csdn.net/article/details/125575053
- 链接标题:详解RDD基本概念、RDD五大属性-CSDN博客
- 所属网站:yaohongxu.blog.csdn.net
- 被收藏次数:5180
文章浏览阅读7.6k次,点赞5次,收藏37次。RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD是spark core的底层核心。Dataset:RDD 可以不保存具体数据, 只保留创建自己的必备信息, 例如依赖和计算函数;RDD 也可以缓存起来, 相当于存储具体数据。Distributed: RDD 支持分区, 可以运行在集群中。Resilient:RDD 支持高效的容错;RDD 中的数据即可以缓存在内存中_rdd
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:rdd