2025-06-072025-06-07 随手记 3 分钟读完 (大约406个字) 0次访问

RDD

共享内存模型

依赖关系

窄依赖 narrow dependency
- OneToOneDependency
- 父 RDD 每个分区只被子 RDD 的一个分区所使用
- 不需要 shuffle
- map，union
宽依赖 wide dependency/shuffle
- 父 RDD 的每个分区可能被多个子 RDD分区所使用，会有 shuffle 产生
- groupByKey

Partitioner 分区器

定义如何分布数据
- 一个 RDD 分成多少个分区，每个分区数据量多发，从而决定每个 Task 将处理哪些数据
可使用分区器
- [[HashPartitioner]] 给定的 key，计算 hashCode，对分区个数取余
- [[RangePartitioner]] 尽量保证每个分区中的数据量均匀，且分区与分区之间是有序的。
  - rangeBounds
- 自定义分区器

Question

RDD

Ryen Xiang

2025-06-07

2025-06-07