2024-10-052024-10-05 随手记 3 分钟读完 (大约399个字) 0次访问

Spark Shuffle

shuffle 过程发生在不同 stage 之间

前一个 stage 的 ShuffleMapTask 进行 shuffle write，把数据存储在 blockManager 上，把数据位置元信息上报到 driver 的 mapOutTrack 中
后一个 stage 根据数据位置元信息，进行 shuffle read，拉取上个 stage 的输出数据

shuffle 操作必须要落盘，所以操作性能低

分布在多个节点的同一个 key，拉取到同一个节点上，进行聚合或 join 操作。

不同 ShuffleWriter

BypassMergeSortShuffleWriter
SortShuffleWriter
- 聚合算子：边聚合边写入内存
- 普通算子：直接写内存
UnsafeShuffleWriter
- 序列化器KryoSerializer
- 直接在 serialized binary data 上 sort 而不是 java objects，减少了 memory 的开销和 GC 的 overhead

触发 Shuffle 的操作

[[Spark 调优]]

[[Spark 数据倾斜]]

Spark Shuffle

Ryen Xiang

2024-10-05

2024-10-05

网络回响