@重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文
id:: 67013da2-4bec-4b38-a2db-6c76e9578076
- 文中把推荐问题转换成多分类问题,在next watch的场景下,每一个备选video都会是一个分类,因此总共的分类有数百万之巨,这在使用softmax训练时无疑是低效的,这个问题Youtube是如何解决的?#card
- 【负采样】
id:: 67013da2-7160-47a3-aef1-c6372477b8aa
2. 在candidate generation model的serving过程中,Youtube为什么不直接采用训练时的model进行预测,而是采用了一种最近邻搜索的方法?#card
- 【线上预测限制】
id:: 67013da2-2f35-4144-b660-b1483d61ae5a
3. Youtube的用户对新视频有偏好,那么在模型构建的过程中如何引入这个feature?#card
- [[example age]] 训练样本产生的时刻距离当前时刻的时间。
id:: 67013da2-50da-45d6-af6e-86d3adf825ae
4. 在对训练集的预处理过程中,Youtube没有采用原始的用户日志,而是对每个用户提取等数量的训练样本,这是为什么?#card
- 减少高度活跃用户对模型损失的过度影响
id:: 67013da2-f6b4-4d90-92dc-7e780218ed65
5. Youtube为什么不采取类似RNN的Sequence model,而是完全摒弃了用户观看历史的时序特征,把用户最近的浏览历史等同看待,这不会损失有效信息吗?#card
id:: 67013da2-bb8f-4706-9984-f87316e9ba39
6. 在处理测试集的时候,Youtube为什么不采用经典的随机留一法(random holdout),而是一定要把用户最近的一次观看行为作为测试集?#card
大部分系统采用 held-out 留一法选择 label,可能会造成数据穿越,所以对于 ytb 来说采用 next watch。
另外 held-out 选择的 label 不符合看视频的习惯,从一个大的主题开始看,然后看到一个小范围的视频。
id:: 67013da2-58f4-46ac-9033-8a9536c734a2
7. 在确定优化目标的时候,Youtube为什么不采用经典的CTR,或者播放率(Play Rate),而是采用了每次曝光预期播放时间(expected watch time per impression)作为优化目标?#card
- 【争夺用户时间,watch time 越长,ytb 的广告收益越差。】
id:: 67013da2-ca46-460c-ba34-074fb8a69689
8. 在进行video embedding的时候,为什么要直接把大量长尾的video直接用0向量代替?#card
- 【低频 video 的 embedding 准确性不佳】
id:: 67013da2-7165-406b-b9dc-b597df892457
9. 针对某些特征,比如 previous impressions,为什么要进行开方和平方处理后,当作三个特征输入模型?#card
- 【特征的非线性】
id:: a3c18c0f-546e-4683-9533-1c88d54a96c4
10. 为什么ranking model不采用经典的logistic regression当作输出层,而是采用了weighted logistic regression?#card
+
@重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文
https://blog.xiang578.com/post/logseq/@重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文.html