DeepSeek 学习

原始论文

  • [[DeepSeekMath]] [[2024/04]] 提出GRPO算法和RL统一视角的讨论

  • [[DeepSeekMoE]] 在tfm的FFN层做了更细粒度的多专家DeepSeekMoE结构。

  • [[DeepSeek V2]] 中提出了高效经济的语言模型。结构上主要有两点,

    • 一个是提出了MLA,由于应用旋转矩阵相对位置编码,在MLA中额外采用一定维度的向量单独作为位置信息拼接起来。

    • 另一个是沿用DeepSeekMoE,v2及之后的文章也用到了GRPO。

  • [[DeepSeek V3]] 依然采用了v2中的MLA和DeepSeekMoE结构,并且采用了多token预测(MTP:multi-token prediction)。此外v3还采用了FP8混合精度训练,介绍了ds的训练框架,甚至对AI硬件供应商(计算硬件和通信硬件)提了一些改进建议。

    • [[@DeepSeek-V3参数详细计算]]

    • DualPipe

    • FP8混合精度

  • [[DeepSeek R1]] 力推RL在增强LLM推理能力的作用。在r1中首先介绍了r1-zero,即没有经过SFT直接进行一个大规模强化学习训练,r1-zero展示出强大有趣的推理行为,但也遇到了一些问题比如可读性差、语言混淆等。继而ds提出了r1:在经过RL学习之前,先进行多阶段训练和冷启数据学习,并且进行模型蒸馏来提升小模型的推理能力。

[[Transformer]]

[[LLM 中强化学习讨论]]

MTP [[Better & Faster Large Language Models via Multi-token Prediction]]

  • [[为什么要做MTP]]

  • [[MTP 损失函数]]

  • [[MTP 节省内存实现]]

  • [[为什么 MTP 是 work 的?]] 从两个角度进行了说明MTP向前多预估几个token有助于学习序列中的"关键决策点"。

    • [[Multi-token prediction loss assigns higher implicit weights to consequential tokens]]
  • [[DeepSeek MTP]]

    • [[DeepSeek MTP 模型推理过程]]

    • [[Deepseek MTP 训练前向推理例子]]

  • 参考文章

    • [[@Multi-token prediction 多词预测]]

    • [[@deepseek技术解读(2)-MTP(Multi-Token Prediction)的前世今生]]

    • DONE [[@DeepSeek中的Multi-Token Prediction]]

    • [[@Deepseek-v3技术报告-图的逐步解析-3-不容易看懂的MTP-公式有拼写错误]]

[[LLM开源大模型汇总]]

[[LLM 中的 Attention]]

[[MoE]]

  • [[DeepSeekMoE]] 架构

  • [[@MOE介绍及其LLM方案整理]]

Ref

作者

Ryen Xiang

发布于

2025-02-15

更新于

2025-04-17

许可协议


网络回响

评论