RL for llm

  • PPO(逐token)

r = r – KL(r 来自reward model,只在最后一个token有值)

TD error: δt​=rt​+γVt+1​−Vt​​ (Vt 来自critic model)

当前状态的价值估计” 与 “实际观察到的奖励 + 下一状态的价值估计” 之间的差距。

GAE = A^t​ = δt​+(γλ)A^t+1​(向前累积)

普通的优势函数:A(s,a)=Q(s,a)−V(s) 是 GAE 想估计的目标,衡量的是“在状态 s 下,采取动作 a 比按当前策略 π 的平均表现好多少”

return^t​ = A^t​ +Vt 用来更新critic model

loss = – clip(xx A^t)

refer new old →refer new KL, old,new 算几率,进行重要性采样

最大化上述目标函数

  • GRPO (逐序列)

优势函数: 无critic,多组一起算

最大化上述目标函数,直接在损失函数中加入策略模型和参考模型之间的 KL 散度来正则化,而不是在奖励中加入 KL 惩罚 项,从而简化了训练过程。

  • 总结
  • DPO

直接根据偏好当loss做微调

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注