特牛网址导航

spark--RDD_rdd里面装数据吗-CSDN博客

网友收藏
文章浏览阅读87次。RDD是一个弹性、可复原的分布式的数据集RDD中装的数据是数据的描述信息,描述了从哪读数据,调用什么方法,传入什么函数,一级依赖关系等RDD特点:1.有一些连续的分区:分区编号从0开始,分区数量决定了Task的并行度(每一个分区中都有一个task,一个executor中可以有很多个tsak同时运行)2.有一个函数作用在每个输入切片上(每一个要处理的文件从hdfs中传输过来足够大的时候是会出现很多物理切片的,都遵循同一个RDD或一系列依赖的RDD中储存的逻辑来进行分析)3.RDD和RDD._rdd里面装数据吗