Large language model
[[Word Embedding]]
-
[[Skip-Gram]] 根据一个单词来预测上下文
[[CBOW]] 根据中间单词预测上下文
[[位置编码]]
[[RoPE]] 一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式
[[Position Interpolation]] 基于旋转位置编码RoPE进行改进,优化了外推性的问题
[[Transformer]]
-
[[Post Norm]]
[[Pre Norm]]
模型
[[GPT]]
[[LLaMA]]
[[GLM]]
[[Kimi]]
[[deepseek]]
[[MiniMax]]
[[Mistral]]
强化学习
- [[LLM 中强化学习讨论]]
其他
- [[NLP 数据增强方法]]
Large language model
https://blog.xiang578.com/post/logseq/Large language model.html