BERT

[[@BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]]

代码:google-research/bert: TensorFlow code and pre-trained models for BERT

大模型 + 微调提升小任务的效果

输入层

BERT

两种 NLP 预训练

[[ELMo]]

[[GPT]]

-w1304

贡献性

模型输入:

训练方式

  • [[Masked-Language Modeling]] →mask 部分单词,80 % mask,10 % 错误单词, 10% 正确单词
    • 目的 → 训练模型记忆句子之间的关系。
      • 减轻预训练和 fine-tune 目标不一致给模型带来的影响
  • [[Next Sentence Prediction]] → 预测是不是下一个句子
    • 句子 A 和句子 B 有 50% 的概率是上下文
    • 解决后续什么问题 → QA 和自然语言推理
      image.png

[[激活函数]] [[GELU]]

优化器

fine tune

研究取不同的 embedding 效果

缺陷

[[Ref]]

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论