Large language model
[[Word Embedding]]
- [[Word2Vec]]
- [[Skip-Gram]] 根据一个单词来预测上下文
- [[CBOW]] 根据中间单词预测上下文
[[位置编码]]
- [[@位置编码之路:SIN->RoPE->ALiBi->PI->NKT->YARN]]
- [[什么是大模型外推性?]]
- [[RoPE]] 一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式
- [[Position Interpolation]] 基于旋转位置编码RoPE进行改进,优化了外推性的问题
- [[Neural Tangent Kernel]]
- [[YARN]]
[[Transformer]]
- [[Post Norm 和 Pre Norm 区别]]
- [[Post Norm]]
- [[Pre Norm]]
模型
- [[GPT]]
- [[LLaMA]]
- [[QWen]]
- [[GLM]]
- [[Kimi]]
- [[deepseek]]
- [[MiniMax]]
- [[Mistral]]
强化学习
- [[LLM 中强化学习讨论]]
其他
- [[NLP 数据增强方法]]
网络回响
Large language model