
ht=tanh(Wxt+Uht−1+b)
- dθdht=∂ht−1∂htdθdht−1+∂θ∂ht
- ∣∂ht−1∂ht∣>1,导致 ↔ 梯度爆炸
- ∣∂ht−1∂ht∣<1,导致 ↔ 梯度消失
∂ht−1∂ht=(1−ht2)U
- 结合 ((793e6f39-50c7-4cd1-bc30-80cf6dea21f1)) 对应的曲线
- 为什么隐状态激活函数使用 [[Tanh]] 而不是 [[ReLU]]?
- 为什么用 Tanh → ∂ht−1∂ht 是有界的,可以缓减梯度爆炸的风险。
- 为什么不用 ReLU → 正半区没有上限
- 将 U 初始化在单位矩阵附近 + 梯度裁剪也可以得到不错的效果
- 如果 U 很大,ht 会接近于 1,$$\frac{\partial h_{t}}{\partial h_{t-1}}$$ 反而会小
[[Backward]]
[[Ref]]