特牛网址导航

PysparkNote004---foreachPartition的参数传递_pyspark foreachpartition-CSDN博客

网友收藏
文章浏览阅读1.5k次。Intro  pyspark批量写入数据库时,需要分批写入,批量写入时,只要建立一个连接,这样可以显著的提高写入速度。分批写入,容易想到foreachPartition,但是pyspark不能像scala那样df.rdd.foreachPartition(x=>{...})只支持df.rdd.foreachPartition(you_function)看下源码: def foreachPartition(self, f): """ Applie_pyspark foreachpartition