2026-02-172026-02-17 随手记 2 分钟读完 (大约273个字) 0次访问

Seq2Seq

[[Sequence to Sequence Learning with Neural Networks]]

[[Massive Exploration of Neural Machine Translation Architectures]]

google/seq2seq: A general-purpose encoder-decoder framework for Tensorflow

Encoder - Decoder

Decoder

decoder 涉及输入是正确的单词还是预测的单词
- Free Running → 使用 Decoder 上一步的预测结果作为当前步的输入
  - 错误累积 → 每次输入预测单词，某个单词预测错，后面会跟着错，模型很难收敛
- [[Teacher Forcing]] → 使用目标文本的“标准答案”作为Decoder的输入
  - 缺点 #card
    - 每次输入正确单词，会导致 overcorrect
    - exposure bias 误差爆炸/曝光误差 (训练环节和预测环节存在行为差异)
- Scheduled sampling 计划采样 #card
  - 1-p 的概率用 teacher forcing
  - 以一定概率随机选择用模型输出还是用真值，选择概率随着训练的推进不断调整
[[Beam Search]] 每一步，多选几个作为候选，最后综合考虑，选出最优的组合。

[[Transformer]] 不适用 RNN

CNN Seq2Seq [[Convolutional Sequence to Sequence Learning]]

Seq2Seq

https://blog.xiang578.com/post/logseq/1445.html

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议

评论