标签: LSTM - 算法花园

2024-10-052024-10-05 随手记 1 分钟读完 (大约203个字)

Transformer 和 LSTM 对比

RNN 为了解决不定长输入，LSTM 的三个门结构为了解决标准 RNN 的梯度爆炸和长序列信息消失问题

硅谷谷主

[[self-attention]] 用句子中有所单词向量的加权和来代表某一个单词的向量。

Transformer 缺乏时间维度建模，通过 [[Positional Encoding]] 也和 LSTM 这种天然的时序网络有差距。

缺乏时间维度建模导致深层 Transformer 编码器的每个位置输出都会很相似(每一层不断在上一层的基础上加权和)

Transformer 效果表现好建立在预训练的基础上，单独训练 Transformer 需要大量技巧

编码器层数，attention head 数量，学习率，权重衰减

Transformer, LSTM

is-3-widescreen order-1 is-sticky">