2026-02-172026-02-17 随手记 4 分钟读完 (大约660个字) 0次访问

@重读Youtube深度学习推荐系统论文，字字珠玑，惊为神文

文中把推荐问题转换成多分类问题，在next watch的场景下，每一个备选video都会是一个分类，因此总共的分类有数百万之巨，这在使用softmax训练时无疑是低效的，这个问题Youtube是如何解决的？#card

【负采样】

在candidate generation model的serving过程中，Youtube为什么不直接采用训练时的model进行预测，而是采用了一种最近邻搜索的方法？#card

【线上预测限制】

Youtube的用户对新视频有偏好，那么在模型构建的过程中如何引入这个feature？#card

[[example age]] 训练样本产生的时刻距离当前时刻的时间。

在对训练集的预处理过程中，Youtube没有采用原始的用户日志，而是对每个用户提取等数量的训练样本，这是为什么？#card

减少高度活跃用户对模型损失的过度影响

Youtube为什么不采取类似RNN的Sequence model，而是完全摒弃了用户观看历史的时序特征，把用户最近的浏览历史等同看待，这不会损失有效信息吗？#card
在处理测试集的时候，Youtube为什么不采用经典的随机留一法（random holdout），而是一定要把用户最近的一次观看行为作为测试集？#card

大部分系统采用 held-out 留一法选择 label，可能会造成数据穿越，所以对于 ytb 来说采用 next watch。
另外 held-out 选择的 label 不符合看视频的习惯，从一个大的主题开始看，然后看到一个小范围的视频。

在确定优化目标的时候，Youtube为什么不采用经典的CTR，或者播放率（Play Rate），而是采用了每次曝光预期播放时间（expected watch time per impression）作为优化目标？#card

【争夺用户时间，watch time 越长，ytb 的广告收益越差。】

在进行video embedding的时候，为什么要直接把大量长尾的video直接用0向量代替？#card

【低频 video 的 embedding 准确性不佳】

针对某些特征，比如 previous impressions，为什么要进行开方和平方处理后，当作三个特征输入模型？#card

【特征的非线性】

为什么ranking model不采用经典的logistic regression当作输出层，而是采用了weighted logistic regression？#card

+

@重读Youtube深度学习推荐系统论文，字字珠玑，惊为神文

https://blog.xiang578.com/post/logseq/47000.html

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议

Article, 王喆

评论