2026-02-172026-02-17 随手记 2 分钟读完 (大约287个字) 0次访问

RDD 持久化

持久化指将数据进行保存，避免数据丢失。

RDD 持久化并非将数据落盘，而是缓存数据，供后续计算使用。

Cache()

persist()

Checkpoint

将 RDD 中间结果二进制形式写入磁盘
使用
- sc.setCheckpointDir(“hdfs://hadoop102:9820/output/a”)
- rdd.checkpoint()
- 手动释放rddx.unpersist(true)

Question

RDD 持久化方式？#card
- ((66b0ee63-1749-4898-b4d9-5ab20b6d0d2d))
- ((66b0ee63-e35a-4fcc-8279-e5a6303b2d22))
memory_only 如果内存存储不了，会怎么操作？#card
- 利用 [[LRU]] 的缓存策略把最老的分区从内存中移除
- 下一次使用被移除的分区需要重新计算

RDD 持久化

Ryen Xiang

2026-02-17

2026-02-17