RL for llm – 摸鱼真人I2W2的B612

r = r – KL(r 来自reward model,只在最后一个token有值）

TD error: δt=rt+γVt+1−Vt (Vt 来自critic model)

当前状态的价值估计” 与 “实际观察到的奖励 + 下一状态的价值估计” 之间的差距。

GAE = A^t = δt+(γλ)A^t+1（向前累积）

普通的优势函数：A(s,a)=Q(s,a)−V(s) 是 GAE 想估计的目标，衡量的是“在状态 s 下，采取动作 a 比按当前策略 π 的平均表现好多少”

return^t = A^t +Vt 用来更新critic model

loss = – clip(xx A^t)

refer new old →refer new KL, old,new 算几率，进行重要性采样

最大化上述目标函数

优势函数：无critic，多组一起算

最大化上述目标函数，直接在损失函数中加入策略模型和参考模型之间的 KL 散度来正则化，而不是在奖励中加入 KL 惩罚项，从而简化了训练过程。

直接根据偏好当loss做微调

留下评论取消回复