UCB
每次尝试时,应该选择收益上限最大的那根手柄。
- 用“箱图”表示各手柄收益的概率分布,线段中点表示该手柄的平均收益,线段两端点表示该手柄收益的上下限。#card

手柄收益上限计算方式 $\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}$ #card
UCB伪代码 #card
每次尝试时,应该选择收益上限最大的那根手柄。

手柄收益上限计算方式 $\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}$ #card
UCB伪代码 #card