Spark
[[Resilient Distributed Datasets A Fault-Tolerant Abstraction for In-Memory Cluster Computing]]
一个用来实现快速而通用的集群计算的平台
Spark 任务
Spark on yarn
spark 作业流程
RDD(Resilient Distributed Dataset) 即弹性数据集
Job action 算子划分
Stage 划分
Task 最小执行单元
运行时的一些概念
Spark 划分逻辑图从而生成物理执行图
Pipeline 的计算方式
[[Broadcast]] 数据共享
Spark 和 MapReduce 的区别?[[Question]]
Ref