LinUCB

推荐新闻a(即拉动手柄a)的平均收益如公式 $E\left(r_{t, a} \mid \boldsymbol{x}{t, a}\right)=\theta_a^{\mathrm{T}} \boldsymbol{x}{t, a}$ #card
image.png

如何求解最优权重 theta

  • 收集的数据 #card
    image.png

  • [[Ridge Regression]] 利用真实收益于计算的预估收益 #card
    image.png

根据公式(8-8)可以得出,在树刻推荐新闻 $a$ 的收益上限是 $\mu_{a, t}+s_{a, t}$ 。如此一来,我们只需要遍历当时候选池中的所有新闻,计算出收益上限,然后选择上限最高的那篇新闻推荐出去,如公式(8-9)所示。$a_t=\operatorname{argmax}{a \in A^{\prime}} \mu{a, t}+s_{a, t}$ #card
image.png

基于LinUCB的新闻推荐 #card
image.png

image.png

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论