2026-02-172026-02-17 随手记 1 分钟读完 (大约218个字) 0次访问

Large language model

[[Word Embedding]]

[[Word2Vec]]
- [[Skip-Gram]] 根据一个单词来预测上下文
- [[CBOW]] 根据中间单词预测上下文

[[位置编码]]

[[@位置编码之路：SIN->RoPE->ALiBi->PI->NKT->YARN]]
[[什么是大模型外推性？]]
[[RoPE]] 一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式
- [[MLA 引入 RoPE]]
[[Position Interpolation]] 基于旋转位置编码RoPE进行改进，优化了外推性的问题
[[Neural Tangent Kernel]]
[[YARN]]
- [[Dynamic NTK]]

[[Transformer]]

[[Post Norm 和 Pre Norm 区别]]
- [[Post Norm]]
- [[Pre Norm]]

模型

[[GPT]]
[[LLaMA]]
[[QWen]]
[[GLM]]
[[Kimi]]
[[deepseek]]
[[MiniMax]]
[[Mistral]]

强化学习

[[LLM 中强化学习讨论]]

其他

[[NLP 数据增强方法]]

Large language model

https://blog.xiang578.com/post/logseq/20756.html

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议

评论