UCB

每次尝试时,应该选择收益上限最大的那根手柄。

  • 用“箱图”表示各手柄收益的概率分布,线段中点表示该手柄的平均收益,线段两端点表示该手柄收益的上下限。#card
    image.png

手柄收益上限计算方式 UCB(i)=Rˉ(i)+c2logNni\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}} #card
image.png

UCB伪代码 #card
image.png

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论