Large language model
[[Word Embedding]]
-
-
[[Skip-Gram]] 根据一个单词来预测上下文
-
[[CBOW]] 根据中间单词预测上下文
-
[[位置编码]]
-
[[RoPE]] 一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式
-
[[Position Interpolation]] 基于旋转位置编码RoPE进行改进,优化了外推性的问题
[[Transformer]]
-
-
[[Post Norm]]
-
[[Pre Norm]]
-
模型
-
[[GPT]]
-
[[LLaMA]]
-
[[GLM]]
-
[[Kimi]]
-
[[deepseek]]
-
[[MiniMax]]
-
[[Mistral]]
强化学习
- [[LLM 中强化学习讨论]]
其他
- [[NLP 数据增强方法]]
Large language model
https://blog.xiang578.com/post/logseq/Large language model.html