常用 Spark 属性

Spark 支持三种方式配置 Spark 属性:

  • 硬编码,通过 SparkConf
  • 动态配置,通过 spark-submit --name <> --master <> --conf
  • 全局配置,通过编辑 <SPARK_HOME>/conf/spark-defaults.conf 文件

常用 Spark 属性

应用属性

spark.app.name

应用名

命令行参数 --name

spark.master

集群主节点 URL

参考:http://spark.apache.org/docs/latest/submitting-applications.html#master-urls

命令行参数 --master

spark.submit.deployMode

Spark Driver 程序部署模式,client 或者 cluster

  • client 本地运行
  • cluster 在集群中的一个节点上运行

命令行参数 --deploy-mode

spark.driver.memory

Driver 进程使用的内存大小,默认 1g

命令行参数 --driver-memory

spark.executor.instances

静态分配的 Executor 数量,默认 2

命令行参数 --num-executors

spark.executor.cores

Executor 进程分配的 CPU 核数,默认 1

命令行参数 --executor-cores

spark.executor.memory

Executor 进程分配的内存大小,默认 1g

命令行参数 --executor-memory

spark.memory.fraction

用于执行和存储的内存所占的比例,默认 0.6

spark.memory.storageFraction

以 spark.memory.fraction 比例分配的内存,用于存储的内存所占的比例,默认 0.5

基于 Spark 2.2.0 版本

参考:http://spark.apache.org/docs/latest/configuration.html