1. 核心观点
在利用对比学习的场景下,GRPO(Group Relative Policy Optimization)与 DPO(Direct Preference Optimization)在优化目标上具有本质的同构性。
GRPO 可以被视为 DPO 的一种基于集合(Set-wise)的广义形式。它通过基于规则的统计方式(Advantage),将一组采样输出动态划分为“胜者集合(Win Set)”和“败者集合(Lose Set)”,从而将 DPO 中原本的 Pair-wise(成对) 对比扩展为了 Pair-Set-Wise(成对集合) 对比。
2. 梯度视角的推导过程
为了验证两者的同构性,我们对比去除了参考模型(Reference Model)项的 DPO 与 Group Size 为 2 的 GRPO。
2.1 DPO 的梯度(简化版)
标准的 DPO 损失函数旨在最大化正例
对参数
其中
2.2 GRPO 的梯度
GRPO 使用优势函数(Advantage)作为权重进行策略梯度更新。假设一个
Group 中有两个样本集合,
计算统计量:均值
。计算优势 (Advantage):
计算梯度:
代入
2.3 结论
对比上述两个公式可见,在二元对比的条件下,GRPO 与 DPO 的梯度方向完全一致。它们都遵循相同的优化范式:提升正样本概率(PSR),降低负样本概率(NSR) 。
3. GRPO 对 DPO 的范式扩展:从 Pair 到 Group + 从预定义到verfiable
虽然微观梯度一致,但 GRPO 通过引入 Group 机制,重新定义了对比的边界:
3.1 重新定义 Win/Lose 集合
DPO:依赖外部显式构造的
对,正负关系是固定的。GRPO:依赖可验证的奖励。
Win Set:
(优于平均水平的样本)Lose Set:
(劣于平均水平的样本)这意味着样本的“好坏”完全依赖于数学估计器。
3.2 对比维度的升维
Pair-wise (DPO):样本
必须优于样本 。Pair-Set-wise (GRPO):通过对集合A和集合B的对比来进行提升。
4. 总结
在 Outcome-based 的蒸馏任务中,GRPO 并非一种全新的强化学习机制,而是 DPO 在多样本采样场景下的统计学变体。
本质机制:二者均通过正向与负向信号的组合来调整模型分布 。
区别:DPO 使用固定的配对和 Sigmoid 隐式加权;GRPO 使用动态的集合划分和标准化(Normalization)显式加权。GRPO 允许“多个胜者”并存,这在需要探索多样性解法的推理任务中具有更高的灵活性。
如果您喜欢我的文章,可以考虑打赏以支持我继续创作.