LinUCB
推荐新闻a(即拉动手柄a)的平均收益如公式 $E\left(r_{t, a} \mid \boldsymbol{x}{t, a}\right)=\theta_a^{\mathrm{T}} \boldsymbol{x}{t, a}$ #card
如何求解最优权重 theta
收集的数据 #card

[[Ridge Regression]] 利用真实收益于计算的预估收益 #card

根据公式(8-8)可以得出,在树刻推荐新闻 $a$ 的收益上限是 $\mu_{a, t}+s_{a, t}$ 。如此一来,我们只需要遍历当时候选池中的所有新闻,计算出收益上限,然后选择上限最高的那篇新闻推荐出去,如公式(8-9)所示。$a_t=\operatorname{argmax}{a \in A^{\prime}} \mu{a, t}+s_{a, t}$ #card
基于LinUCB的新闻推荐 #card
