- PPO(逐token)
r = r – KL(r 来自reward model,只在最后一个token有值)
TD error: δt=rt+γVt+1−Vt (Vt 来自critic model)
当前状态的价值估计” 与 “实际观察到的奖励 + 下一状态的价值估计” 之间的差距。
GAE = A^t = δt+(γλ)A^t+1(向前累积)
普通的优势函数:A(s,a)=Q(s,a)−V(s) 是 GAE 想估计的目标,衡量的是“在状态 s 下,采取动作 a 比按当前策略 π 的平均表现好多少”
return^t = A^t +Vt 用来更新critic model
loss = – clip(xx A^t)
refer new old →refer new KL, old,new 算几率,进行重要性采样
最大化上述目标函数
- GRPO (逐序列)
优势函数: 无critic,多组一起算


最大化上述目标函数,直接在损失函数中加入策略模型和参考模型之间的 KL 散度来正则化,而不是在奖励中加入 KL 惩罚 项,从而简化了训练过程。

- 总结

- DPO
直接根据偏好当loss做微调

