2026-02-17 2026-02-17 随手记 1 分钟读完 (大约130个字) 0次访问UCB每次尝试时,应该选择收益上限最大的那根手柄。 用“箱图”表示各手柄收益的概率分布,线段中点表示该手柄的平均收益,线段两端点表示该手柄收益的上下限。#card 手柄收益上限计算方式 UCB(i)=Rˉ(i)+c2logNni\mathrm{UCB}(i)=\bar{R}(i)+c \sqrt{\frac{2 \log N}{n_i}}UCB(i)=Rˉ(i)+cni2logN #card UCB伪代码 #card 网络回响UCBhttps://blog.xiang578.com/post/logseq/42478.html作者Ryen Xiang发布于2026-02-17更新于2026-02-17许可协议