Spark 分区知识梳理 Spark的Task数目可以说跟分区是一一对应的,分区数目决定了Spark执行Task的并行度,与性能息息相关. 1. 创建RDD、DataFrame时默认的分区数设置 主要由 spark.default.parallelism 和 spark.sql.shuffle.partitions 这两个参数设置分区数. spark.default.parallelism只有在处理RDD时才会起作用,对Spa ...