banner
NEWS LETTER

笔记:DPO 与 GRPO 的内在同构性分析

Scroll down

1. 核心观点

在利用对比学习的场景下,GRPO(Group Relative Policy Optimization)与 DPO(Direct Preference Optimization)在优化目标上具有本质的同构性。

GRPO 可以被视为 DPO 的一种基于集合(Set-wise)的广义形式。它通过基于规则的统计方式(Advantage),将一组采样输出动态划分为“胜者集合(Win Set)”和“败者集合(Lose Set)”,从而将 DPO 中原本的 Pair-wise(成对) 对比扩展为了 Pair-Set-Wise(成对集合) 对比。

2. 梯度视角的推导过程

为了验证两者的同构性,我们对比去除了参考模型(Reference Model)项的 DPO 与 Group Size 为 2 的 GRPO。

2.1 DPO 的梯度(简化版)

标准的 DPO 损失函数旨在最大化正例 与负例 之间的概率差。假设去除参考模型 (或视为常数),损失函数简化为:

对参数 求梯度,其更新方向为:

其中 为由 Sigmoid 函数导数决定的动态权重系数。

2.2 GRPO 的梯度

GRPO 使用优势函数(Advantage)作为权重进行策略梯度更新。假设一个 Group 中有两个样本集合,(正确,Reward=1)和 (错误,Reward=0):

  1. 计算统计量:均值

  2. 计算优势 (Advantage)

  3. 计算梯度

代入 值:

2.3 结论

对比上述两个公式可见,在二元对比的条件下,GRPO 与 DPO 的梯度方向完全一致。它们都遵循相同的优化范式:提升正样本概率(PSR),降低负样本概率(NSR)

3. GRPO 对 DPO 的范式扩展:从 Pair 到 Group + 从预定义到verfiable

虽然微观梯度一致,但 GRPO 通过引入 Group 机制,重新定义了对比的边界:

3.1 重新定义 Win/Lose 集合

  • DPO:依赖外部显式构造的 对,正负关系是固定的。

  • GRPO:依赖可验证的奖励。

    • Win Set (优于平均水平的样本)

    • Lose Set (劣于平均水平的样本)

    • 这意味着样本的“好坏”完全依赖于数学估计器。

3.2 对比维度的升维

  • Pair-wise (DPO):样本 必须优于样本

  • Pair-Set-wise (GRPO):通过对集合A和集合B的对比来进行提升。

4. 总结

在 Outcome-based 的蒸馏任务中,GRPO 并非一种全新的强化学习机制,而是 DPO 在多样本采样场景下的统计学变体。

  • 本质机制:二者均通过正向与负向信号的组合来调整模型分布 。

  • 区别:DPO 使用固定的配对和 Sigmoid 隐式加权;GRPO 使用动态的集合划分和标准化(Normalization)显式加权。GRPO 允许“多个胜者”并存,这在需要探索多样性解法的推理任务中具有更高的灵活性。

如果您喜欢我的文章,可以考虑打赏以支持我继续创作.

其他文章
目录导航 置顶
  1. 1. 1. 核心观点
  2. 2. 2. 梯度视角的推导过程
    1. 2.1. 2.1 DPO 的梯度(简化版)
    2. 2.2. 2.2 GRPO 的梯度
    3. 2.3. 2.3 结论
  3. 3. 3. GRPO 对 DPO 的范式扩展:从 Pair 到 Group + 从预定义到verfiable
    1. 3.1. 3.1 重新定义 Win/Lose 集合
    2. 3.2. 3.2 对比维度的升维
  4. 4. 4. 总结
请输入关键词进行搜索