@9.2 弱个性化CEM,强个性化强化学习
通过不停分组让 CEM 算法实现个性化。随着区分越来越细,流量越来越少,CEM这种尝试+调整的路线就行不通了。#card
其一,CEM自身没有学习环节来记忆探测后的表现,也不能从中获取规律;
其二,CEM探测用的点之间互相没有联系,也没有什么规律能够共享。
如果有一个能做高度个性化的方法,它需要满足哪些条件?#card
①和CEM一样,要能够接受非样本级的反馈;
②要输出一个决策,改变当前的参数;
③存在一个学习环节,学习到不同参数和对应奖励中间存在的规律。
@9.2 弱个性化CEM,强个性化强化学习
https://blog.xiang578.com/post/logseq/@9.2 弱个性化CEM,强个性化强化学习.html