UCB
每次尝试时,应该选择收益上限最大的那根手柄。
- 用“箱图”表示各手柄收益的概率分布,线段中点表示该手柄的平均收益,线段两端点表示该手柄收益的上下限。 #card

#card 手柄收益上限计算方式 $\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}$
UCB伪代码 #card
每次尝试时,应该选择收益上限最大的那根手柄。

#card 手柄收益上限计算方式 $\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}$
UCB伪代码 #card