Spark DataFrame分区:未保留的分区数

更新时间：2023-11-18 18:45:16

这与

It is something related to Tungsten project which was enabled in Spark. It uses hardware optimization and calls hash partitioning which triggers shuffle operation. By default spark.sql.shuffle.partitions is set to be 200. You can verify by calling explain on your dataframe before repartitioning and after just calling:

myDF.explain

val repartitionedDF = myDF.repartition($"x")

repartitionedDF.explain

上一篇 : ：如何在 Julia 中将混合类型的矩阵转换为 DataFrame，识别列类型下一篇 : Spark从DataFrame中删除重复的行

Spark DataFrame分区:未保留的分区数

相关阅读

推荐文章