SFT
SFT的loss可以写作:
由于loss是梯度下降,从最大化的角度来说就是
从直觉理解,就是在最大化来自数据集D的一个最大的概率。是一个经典的BC方法。
RL
PG
从PG with baseline来看,最终的目标函数是最大化下面的目标:
从哲学角度思考,这样的目标是,通过
PPO
PPO-CLIP的梯度最后可以优化到这样
最后的梯度取会多一个重要性采样,以及指示函数所保证的,对于在正advantage下clip过高的梯度,在负advantage下clip过低的梯度,防止学习过于激进。
(这里的指示函数的意思是没有被clip的意思,被clip梯度为0)
RL和SFT的根本区别
- RL的动作来源于自己,这个动作和自己本身的分布相符,在更新的时候不会导致梯度过大过于尖锐,很难学。
- RL的advantage作为token梯度的加权项,正确的选择了那些做得好的token。一定程度上给予他们较大的梯度,同时还有一个unlearning的效果,对于做的不好的token,他还有一个负方向的梯度。
- CLIP机制带来的token masking的效果。可以屏蔽掉过低的梯度,防止学习过于激进
如果您喜欢我的文章,可以考虑打赏以支持我继续创作.