@9.2 弱个性化CEM,强个性化强化学习
通过不停分组让 CEM 算法实现个性化。随着区分越来越细,流量越来越少,CEM这种尝试+调整的路线就行不通了。#card
- 其一,CEM自身没有学习环节来记忆探测后的表现,也不能从中获取规律;
- 其二,CEM探测用的点之间互相没有联系,也没有什么规律能够共享。
如果有一个能做高度个性化的方法,它需要满足哪些条件?#card
- ①和CEM一样,要能够接受非样本级的反馈;
- ②要输出一个决策,改变当前的参数;
- ③存在一个学习环节,学习到不同参数和对应奖励中间存在的规律。
网络回响
@9.2 弱个性化CEM,强个性化强化学习