Probability Matching

Boltzmann Exploration

  • 手柄的概率 $p(i)=\frac{\exp \frac{\bar{R}(i)}{\tau}}{\sum_{j=1}^N \exp \frac{\bar{R}(j)}{\tau}}$ #card
    image.png
作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论