SFT

SFT的loss可以写作：

由于loss是梯度下降，从最大化的角度来说就是
从直觉理解，就是在最大化来自数据集D的一个最大的概率。是一个经典的BC方法。

RL

从PG with baseline来看，最终的目标函数是最大化下面的目标：

从哲学角度思考，这样的目标是，通过评价每个自采样的token，来改变每个token的梯度。从而能够达到自己拟合自己的结果

PPO-CLIP的梯度最后可以优化到这样
最后的梯度取会多一个重要性采样，以及指示函数所保证的，对于在正advantage下clip过高的梯度，在负advantage下clip过低的梯度，防止学习过于激进。
（这里的指示函数的意思是没有被clip的意思，被clip梯度为0）

RL的动作来源于自己，这个动作和自己本身的分布相符，在更新的时候不会导致梯度过大过于尖锐，很难学。
RL的advantage作为token梯度的加权项，正确的选择了那些做得好的token。一定程度上给予他们较大的梯度，同时还有一个unlearning的效果，对于做的不好的token，他还有一个负方向的梯度。
CLIP机制带来的token masking的效果。可以屏蔽掉过低的梯度，防止学习过于激进