2026-02-172026-02-17 随手记 3 分钟读完 (大约413个字) 0次访问

LSTM

结构

遗忘门 forget gate ↔ $\Gamma_f^{\langle t\rangle}=\sigma\left(W_f\left[a^{\langle t-1\rangle}, x^{\langle t\rangle}\right]+b_f\right)$
- 取值范围在 0 到 1
- 功能 → 控制上一个 cell 的状态 $c^{t-1}$，有多少信息进入当前状态 $c^{t}$
更新门 update gate ↔ $\Gamma_u^{\langle t\rangle}=\sigma\left(W_u\left[a^{\langle t-1\rangle}, x^{\langle t\rangle}\right]+b_u\right)$
- 功能 → 控制输入 $x$，有多少信息进入当前状态 $c^{t}$
$\tilde{c}^{(t)}$ → $\tilde{c}^{(t)}=\tanh \left(W_C\left[a^{\langle t-1\rangle}, x^{\langle t\rangle}\right]+b_C\right)$
$c^{\langle t\rangle}=\Gamma_f^{\langle t\rangle} \circ c^{(t-1\rangle}+\Gamma_u^{\langle t\rangle} \circ \tilde{c}^{\langle t\rangle}$
输出门 output gate ↔ $\Gamma_o^{(t)}=\sigma\left(W_o\left[a^{\langle t-1\rangle}, x^{\langle t\rangle}\right]+b_o\right)$
- 作用 → 控制当前状态 $c^{t}$ 有多少信息进入 cell 的输出
新的 $a^{\langle t\rangle}$ 计算方式→ $a^{\langle t\rangle}=\Gamma_o^{\langle t\rangle} \circ \tanh \left(c^{\langle t \rangle}\right)$

使用饱和的非线性函数

Ref

LSTM

Ryen Xiang

2026-02-17

2026-02-17