Spark常规性能调优：最优资源配置

好的，我们来详细探讨 Spark 性能调优中的最优资源配置。这是提升 Spark 作业执行效率的基础，需要根据集群资源和作业需求进行精细调整。

Spark 性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。

🧠 核心思路

资源配置的目标是最大化集群资源的利用率，避免资源浪费（如 CPU 空闲）或资源瓶颈（如内存不足导致频繁 GC 或 OOM）。主要关注点包括：

资源总量分配：为 Spark 应用程序分配多少集群资源。资源内部划分：如何将这些资源划分给 Driver、Executor 以及每个 Executor 内部的 Core 和 Memory。动态分配：是否启用资源动态伸缩以适应作业不同阶段的需求。

📌 1. 资源总量分配 (YARN 模式为例)

在 YARN 集群上提交 Spark 作业时，需指定应用程序可使用的资源上限：



spark-submit 
  --master yarn 
  --deploy-mode cluster 
  --num-executors 10        # 初始 Executor 数量
  --executor-cores 4       # 每个 Executor 的 CPU 核数
  --executor-memory 16G    # 每个 Executor 的内存大小
  --driver-memory 4G       # Driver 内存
  --total-executor-cores 40 # 总 CPU 核数上限 (可选)

--num-executors: 初始请求的 Executor 数量。并非越多越好，需考虑集群总资源和任务并行度。--executor-cores: 每个 Executor 可同时运行的 Task 数。通常建议在 4-8 之间，避免过少（CPU 空闲）或过多（内存竞争、GC 压力）。--executor-memory: 每个 Executor 的堆内存。需预留部分内存给堆外内存（Off-Heap Memory）和操作系统。--driver-memory: Driver 内存，用于存储任务状态、广播变量等。对于涉及大量数据聚合或宽依赖的作业，需要较大内存。

⚙️ 2. Executor 资源配置优化

(1) 内存分配比例

每个 Executor 的内存 (--executor-memory) 由以下几部分组成：

spark.executor.memoryOverhead: 堆外内存（如 JVM 自身、线程栈、NIO Buffer）。默认是 executor-memory 的 10% (最小 384M)。

公式：
实际总内存=–executor-memory+max(384M,0.1×–executor-memory)” role=”presentation”>实际总内存=–executor-memory+max(384M,0.1×–executor-memory)实际总内存=–executor-memory+max(384M,0.1×–executor-memory)
堆内内存 (spark.executor.memory): 由 Spark 管理，进一步划分为：
spark.memory.fraction: 统一内存池比例（默认 0.6），用于执行内存（Shuffle、Join、Sort）和存储内存（Cache）。spark.memory.storageFraction: 存储内存占统一内存池的比例（默认 0.5），可被执行内存借用。

优化建议:

若观察到频繁的 Executor OOM (堆内或堆外)，考虑增加 --executor-memory 或调整 memoryOverhead。若 GC 时间过长，可能是堆内内存不足或对象过多，可尝试增大堆内存或优化数据结构。

(2) CPU 核数与并行度

spark.default.parallelism: 默认并行度（RDD Partition 数），通常建议设置为 (集群总核心数) * 2 左右。Executor 核心数：每个 Executor 的 Core 数 (--executor-cores) 决定了其并发执行 Task 的能力。
理想情况：每个 Core 处理 1 个活跃 Task，同时有少量 Task 等待（避免空闲）。
总并行度 ≈ num-executors * executor-cores。

🔄 3. 动态资源分配

Spark 支持在作业运行时动态增减 Executor：



spark-submit 
  --conf spark.dynamicAllocation.enabled=true 
  --conf spark.dynamicAllocation.initialExecutors=5 
  --conf spark.dynamicAllocation.minExecutors=2 
  --conf spark.dynamicAllocation.maxExecutors=20

优点：适应任务负载变化，提高集群利用率。缺点：Executor 启动/销毁有开销，可能影响短作业性能。