2025-06-072025-06-07 随手记 7 分钟读完 (大约1050个字) 0次访问

@第9章非梯度场景

非梯度场景定义 #card

非梯度场景的解决方案：#card

集成排序：只参考排序不参考数值 $y=\sum_i w_i \operatorname{Rank}\left(\mathrm{XTR}_i\right)$ #card

[[cross entropy method]] #card

(1)以一个高斯分布作为起点，在一开始可以随机生成一个。
(2)从上述分布中采样生成N个点。
(3)给每个点都分配一些流量，然后去探索。比如在线上实验时，CEM整体使用10%的流量，这里用5个点来探测，那么每个点就分到2%的流量。经过一段时间的观察，挑出表现最好的若干个点。这里的“表现最好”就按照我们指定的线上目标来体现，这就把线下和线上联系起来了。
(4)从所有点中挑出表现最好的几个点再拟合一个新的高斯分布。
(5)加点噪声，使它们有机会脱离局部最优点。
(6)用新拟合出来的高斯分布重新开始下一轮迭代。

CEM 算法注意事项 #card

(1)CEM每次生成的几个点都是在同期比较的，同期比较可以避免被推荐系统的时变性干扰（如昨天的结果和今天的结果不具备可比性），但同期探测的点太多会让每一个点的流量变少从而使结果波动变大，需要权衡。
(2)这个方法只考虑线上表现（相当于强化学习中的奖励）的优劣关系，不对数值建模，更不建模高阶量，因此非常鲁棒。
(3)虽然自己拟合了一个高斯分布，但也考虑了建模过程中的误差，可以施加扰动继续探索。

从整体上看CEM算法，它是否接受反馈？#card

还有很多经典的场景都属于非梯度场景，#card

@第9章非梯度场景

Ryen Xiang

2025-06-07

2025-06-07

网络回响