推荐新闻a(即拉动手柄a)的平均收益如公式 E(rt,a∣xt,a)=θaTxt,a #card

如何求解最优权重 theta
- 收集的数据 #card

- [[Ridge Regression]] 利用真实收益于计算的预估收益 #card

根据公式(8-8)可以得出,在树刻推荐新闻 a 的收益上限是 μa,t+sa,t 。如此一来,我们只需要遍历当时候选池中的所有新闻,计算出收益上限,然后选择上限最高的那篇新闻推荐出去,如公式(8-9)所示。at=argmaxa∈A′μa,t+sa,t #card

基于LinUCB的新闻推荐 #card

