Spark

[[Resilient Distributed Datasets A Fault-Tolerant Abstraction for In-Memory Cluster Computing]]

一个用来实现快速而通用的集群计算的平台

Spark 任务

Spark on yarn

spark 作业流程

RDD(Resilient Distributed Dataset) 即弹性数据集

Job action 算子划分

Stage 划分

Task 最小执行单元

[[Spark Operator]]

运行时的一些概念

Spark 划分逻辑图从而生成物理执行图

Pipeline 的计算方式

[[Spark Shuffle]]

[[Spark 内存模块]]

[[Broadcast]] 数据共享

[[spark-submit]]

Spark 和 MapReduce 的区别?[[Question]]

[[Spark API]]

Ref

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论