当前位置: 首页 > spark
  • Spark 分区知识梳理

    Spark 分区知识梳理 Spark的Task数目可以说跟分区是一一对应的,分区数目决定了Spark执行Task的并行度,与性能息息相关. 1. 创建RDD、DataFrame时默认的分区数设置 主要由 spark.default.parallelism 和 spark.sql.shuffle.partitions 这两个参数设置分区数. spark.default.parallelism只有在处理RDD时才会起作用,对Spa ...

    阅读全文
    作者:边城网事 | 分类:Scala, spark, 程序代码 | 阅读:993