UCB

每次尝试时,应该选择收益上限最大的那根手柄。

  • 用“箱图”表示各手柄收益的概率分布,线段中点表示该手柄的平均收益,线段两端点表示该手柄收益的上下限。 #card
    image.png

#card 手柄收益上限计算方式 $\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}$
image.png

UCB伪代码 #card
image.png

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论