2024-06-012024-10-05 随手记 6 分钟读完 (大约965个字) 0次访问

@重排序在快手短视频推荐系统中的演进

想法

值得一看，混排强化学习那部分设计还不是很熟悉
端上重排，如何拆分模型部署在服务器和端上

摘录

快手推荐环节

序列重排
- 重排需要解决的问题
  - 整个序列的价值并非单 item 效果的累计，如何使得序列价值最大化；
  - 沉浸式场景中，什么是好的多样性体验，业务意志如何体现；
  - 同一个场景下越来越多的业务参与其中，如何恰当地分配流量和注意力，达成业务目标和整体最优；
  - 如何更加及时、更加细微地感知用户状态，及时调整我们的推荐策略和内容。
- generator-evaluator 范式
  - generator 从 top50 中生成模式丰富的序列类型
  - 然后使用 evaluator 评价召回的序列整体价值
- 序列生成
  - 通过协同采样生成多序列，采样过程从原理上来讲是不断地逼近 Pareto 最优曲面，进而得到不同的采样点，形成不同的序列。

+ #### [[Rerank/Evaluator]]

  + 三个业务目标

  + 单向 Transformer (用户自上而下刷视频，下游视频对上游视频没有增益)，也可以降低复杂度，提升模型稳定性。

序列混排
- Base 方案
  - 混排问题定义：将各个业务返回结果恰当地组合，得到社会综合价值最大的返回序列。
  - LinkedIn 优化目标
    - 在用户价值体验大于C的前提下最优化营收价值

  + base 方案的问题

+ #### 混排 listwise 方案

  + 跨域转化模块，广告和自然内容是跨域的

  + 广告内容多任务预估，利用左侧短视频信息和 context 信息校准广告 ctr 和 cvr 等指标

+ #### 混排 RL 方案

  + 目标：长期体验和近期收入平衡

  + 状态、动作、回报

  + [[Dueling DQN]]

    + 首先，V网络评估用户当前的满意程度，这使得模型可以在不同的用户状态下选择不同的放置策略。但由于放置策略十分离散，它的解空间相当大，那么我们需要对离散空间 dense 化。

    + 我们的 dense 化不是通过模型去做的，而是通过之前使用的重预估监督模型来实现。通过监督模型，我们就可以知道这个 action 下每个位置放置的内容可以带来多少的用户体验和商业价值。

    + 之后，我们可以使用一个神经网络对不同的 action 进行打分。

    + 我们的优化目标是每一步选择能够达到最终的总和价值最大，reward 是长期价值和近期价值的组合。

  + 两段式训练范式

    + 首先，使用 online policy 的方式，先将模型部署上线生成 online policy 下的数据，作为 off policy 的训练数据放入回放池。

    + 之后，使用 off policy 来训练 Dqn 模型。

端上重排
- 需要解决问题
  - 实时感知
  - 实时反馈
  - 千人千端
  - 算力分配
- 端上重排架构

+ #### 千人千端

Ref

读《重排序在快手短视频推荐系统中的演进》有感 - 知乎 (zhihu.com) 评论区 qujt08 感觉是快手员工？

@重排序在快手短视频推荐系统中的演进

https://blog.xiang578.com/note/wx_OTyEbPCBh1NHogPM7bBtvA.html

作者

Ryen Xiang

发布于

2024-06-01

更新于

2024-10-05

许可协议

web, ReRank

@重排序在快手短视频推荐系统中的演进

想法

摘录

快手推荐环节

序列重排

序列生成

序列混排

Base 方案

端上重排

端上重排架构

Ref

作者

发布于

更新于

许可协议

相关文章

网络回响

评论

目录

最新文章

@重排序在快手短视频推荐系统中的演进

想法

摘录

快手推荐环节

序列重排

序列生成

序列混排

Base 方案

端上重排

端上重排架构

Ref

作者

发布于

更新于

许可协议

相关文章

@多目标排序在快手短视频推荐中的实践

@基于超网络的实时可控重排模型

@淘宝推荐场景的利器：融合复杂目标且支持实时调控的重排模型

@the concept-descriptor note taking technique

@didi food中的智能补贴实战漫谈

网络回响

评论

目录

最新文章