NEG:负向样本太多,选取部分负样本来更新。可以作为 HS 的一种替代。
-
词在集合中的频率,带权采样
- 权重计算 :-> len(w)=∑u∈vocabcount(u)count(w)
- 权重计算经验值 :-> len(w)=∑u∈vocabcount(u)3/4count(w)3/4
-
具体采样实现 #card
负采样的目标函数是一个经验公式。
E=−logσ(wwO′⋅h)−wj∈Wneg∑logσ(−wwj′⋅h)
wwO′:为真实的输出单词对应的输出向量
wwj′`:为负采样的单词对应的输出向量
作用:
-
- 加快模型计算
-
- 保证了模型训练的效果,其一模型每次只需要更新采样的词的权重,不用更新所有的权重,那样会很慢,其二中心词其实只跟它周围的词有关系,位置离着很远的词没有关系,也没必要同时训练更新。