特牛生活网

大数据Spark(二十八):SparkSQL案例三电影评分数据分析_spark 每年评分前三的电影,显示年份、电影名、评分。按年份降序、评分降序排列-CSDN博客

网友收藏
  • 链接地址:https://lansonli.blog.csdn.net/article/details/115794520
  • 链接标题:大数据Spark(二十八):SparkSQL案例三电影评分数据分析_spark 每年评分前三的电影,显示年份、电影名、评分。按年份降序、评分降序排列-CSDN博客
  • 所属网站:lansonli.blog.csdn.net
  • 被收藏次数:4438
文章浏览阅读4.4k次,点赞7次,收藏27次。原因:在SparkSQL中当Job中产生Shuffle时,默认的分区数(spark.sql.shuffle.partitions )为200,在实际项目中要合理的设置。可以在构建SparkSession实例对象时进行设置。运行上述程序时,查看WEB UI监控页面发现,某个Stage中有200个Task任务,也就是说RDD有200分区Partition。_spark 每年评分前三的电影,显示年份、电影名、评分。按年份降序、评分降序排列