特牛网址导航

Spark中的DataFrame和DataSet_没有org.apache.spark.sql.dataset-CSDN博客

网友收藏
文章浏览阅读2.2k次,点赞3次,收藏9次。在SparkSql中要求被操作的数据必须是结构化的,所以引入了俩种数据类型,DataFrame和DataSet。DataFrame是spark1.3之后引入的分布式集合,DataSet是spark1.6之后引入的分布式集合。在spark2.0之后,DataFrame和DataSet的API统一了,DataFrame是DataSet的子集,DataSet是DataFrame的扩展。(type DataFrame = org.apache.spark.sql.Dataset[org.apache.spark_没有org.apache.spark.sql.dataset