Probability Matching

Boltzmann Exploration

  • 手柄的概率 p(i)=expRˉ(i)τj=1NexpRˉ(j)τp(i)=\frac{\exp \frac{\bar{R}(i)}{\tau}}{\sum_{j=1}^N \exp \frac{\bar{R}(j)}{\tau}} #card
    image.png

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论