2024-10-052024-10-05 随手记几秒读完 (大约70个字) 0次访问

RealFormer

Layer Normalization

On Layer Normalization in the Transformer Architecture

PostLN

{{embed [[2020/09/22]] 堵点
}}

Informer：把残差转移到Attention矩阵上面去 - 科学空间|Scientific Spaces

Which Training Methods for GANs do actually Converge?
- 残差每一步累积导致方差很大从 $$x+f(x)$$ 变成 $$x+\alpha f(x)$$

RealFormer

https://blog.xiang578.com/post/logseq/RealFormer.html

作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-10-05

许可协议

Paper, Algorithm

相关文章

网络回响

评论