2026-02-17 2026-02-17 随手记 1 分钟读完 (大约113个字) 0次访问why self-attention通过计算复杂度、并行操作数、最长学习距离三个方面来对比 Transformer、CNN、RNN。 计算复杂度就是模型中浮点计算次数 CNN 中的最长学习距离是通过[[空洞卷积]]实现 训练效率低下,self-attention 可以并行计算。 长距依赖问题,self-attention 可以忽视不同 token 之间的距离。 网络回响why self-attentionhttps://blog.xiang578.com/post/logseq/14961.html作者Ryen Xiang发布于2026-02-17更新于2026-02-17许可协议