2025-06-072025-06-07 随手记 1 分钟读完 (大约219个字) 0次访问

LinUCB

推荐新闻a（即拉动手柄a）的平均收益如公式 $E\left(r_{t, a} \mid \boldsymbol{x}{t, a}\right)=\theta_a^{\mathrm{T}} \boldsymbol{x}{t, a}$ #card

如何求解最优权重 theta

收集的数据 #card
[[Ridge Regression]] 利用真实收益于计算的预估收益 #card

根据公式（8－8）可以得出，在树刻推荐新闻 $a$ 的收益上限是 $\mu_{a, t}+s_{a, t}$ 。如此一来，我们只需要遍历当时候选池中的所有新闻，计算出收益上限，然后选择上限最高的那篇新闻推荐出去，如公式（8－9）所示。$a_t=\operatorname{argmax}{a \in A^{\prime}} \mu{a, t}+s_{a, t}$ #card