2026-02-172026-02-17 随手记 7 分钟读完 (大约1051个字) 0次访问

DeepSeek 学习

原始论文

[[DeepSeekMath]] [[04]] 提出GRPO算法和RL统一视角的讨论
[[DeepSeekMoE]] 在tfm的FFN层做了更细粒度的多专家DeepSeekMoE结构。
[[DeepSeek V2]] 中提出了高效经济的语言模型。结构上主要有两点，
- 一个是提出了MLA，由于应用旋转矩阵相对位置编码，在MLA中额外采用一定维度的向量单独作为位置信息拼接起来。
- 另一个是沿用DeepSeekMoE，v2及之后的文章也用到了GRPO。
[[DeepSeek V3]] 依然采用了v2中的MLA和DeepSeekMoE结构，并且采用了多token预测(MTP:multi-token prediction)。此外v3还采用了FP8混合精度训练，介绍了ds的训练框架，甚至对AI硬件供应商(计算硬件和通信硬件)提了一些改进建议。
- [[@DeepSeek-V3参数详细计算]]
- DualPipe
- FP8混合精度
[[DeepSeek R1]] 力推RL在增强LLM推理能力的作用。在r1中首先介绍了r1-zero，即没有经过SFT直接进行一个大规模强化学习训练，r1-zero展示出强大有趣的推理行为，但也遇到了一些问题比如可读性差、语言混淆等。继而ds提出了r1：在经过RL学习之前，先进行多阶段训练和冷启数据学习，并且进行模型蒸馏来提升小模型的推理能力。
- [[@DeepSeek-R1技术笔记 (含图解和技术点介绍)]]
- [[@温故而知新之：图解DeepSeek-R1]]
- [[@看DeepSeek R1的论文时，我突然想起了AlphaGo]]

[[为什么要做MTP]]
[[MTP 损失函数]]
[[MTP 节省内存实现]]
[[为什么 MTP 是 work 的？]] 从两个角度进行了说明MTP向前多预估几个token有助于学习序列中的”关键决策点”。
- [[Multi-token prediction loss assigns higher implicit weights to consequential tokens]]
[[DeepSeek MTP]]
- [[DeepSeek MTP 模型推理过程]]
- [[Deepseek MTP 训练前向推理例子]]
参考文章
- [[@Multi-token prediction 多词预测]]
- [[@deepseek技术解读(2)-MTP（Multi-Token Prediction）的前世今生]]
- [[@DeepSeek中的Multi-Token Prediction]]
- [[@Deepseek-v3技术报告-图的逐步解析-3-不容易看懂的MTP-公式有拼写错误]]

[[@稀疏化Attention：SWA->NSA->MoBA]]
发展历史
- 2018 [[Multi-Head Attention]]、2019 [[Multi-Query Attention]]、[[Grouped-Query Attention]]、
- [[Multi-head Latent Attention]]
  - [[从GQA视角如何看MLA]]
  - [[MLA 引入 RoPE]]
  - [[MLA 将 Q 输入也改为了投影形式]]
  - [[推理阶段的MLA]]
[[KV Cache]]
- [[为什么降低KV Cache的大小如此重要？]]
- 分析 GPT 模型自回归生成过程中的 KV Cache 优化技术 - 知乎
- 大模型推理性能优化之KV Cache解读 - 知乎
- 为什么加速LLM推断有KV Cache而没有Q Cache？ - 知乎
参考
- [[@对deepseek v3中MLA的详细分析（对比MHA的计算量、缓存量、参数量）]]
- [[@Deepseek-v3技术报告-图的逐步解析-1-MLA]]
- DeepSeek-V2 高性能推理 (1)：通过矩阵吸收十倍提速 MLA 算子 - 知乎
- DeepSeek-V2 MLA KV Cache 真的省了吗？ - 知乎
- [[@MHA->MQA->GQA->MLA的演进之路]]
- [[@DeepSeek：KV cache压缩—MLA与FFN的MoE结构]]
- [[@缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA]]

DeepSeek 学习

Ryen Xiang

2026-02-17

2026-02-17