LinUCB

推荐新闻a(即拉动手柄a)的平均收益如公式 E(rt,axt,a)=θaTxt,aE\left(r_{t, a} \mid \boldsymbol{x}_{t, a}\right)=\theta_a^{\mathrm{T}} \boldsymbol{x}_{t, a} #card
image.png

如何求解最优权重 theta

  • 收集的数据 #card
    image.png
  • [[Ridge Regression]] 利用真实收益于计算的预估收益 #card
    image.png

根据公式(8-8)可以得出,在树刻推荐新闻 aa 的收益上限是 μa,t+sa,t\mu_{a, t}+s_{a, t} 。如此一来,我们只需要遍历当时候选池中的所有新闻,计算出收益上限,然后选择上限最高的那篇新闻推荐出去,如公式(8-9)所示。at=argmaxaAμa,t+sa,ta_t=\operatorname{argmax}_{a \in A^{\prime}} \mu_{a, t}+s_{a, t} #card
image.png

基于LinUCB的新闻推荐 #card
image.png
image.png

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论