banner
NEWS LETTER

7.11 阅读笔记

Scroll down

Pre-Trained Policy Discriminators are General Reward Models

文章要解决的问题

这篇论文旨在解决当前大型语言模型(LLM)在通过强化学习(RL)进行后期训练时,其核心组件——奖励模型(Reward Model, RM)——所面临的几个根本性挑战:

  1. 可扩展性问题 (Scalability):传统的奖励模型依赖于大量高质量的人工标注偏好数据(即“哪个回答更好”)。获取这种数据的成本非常高昂,规模也难以扩大 。

  2. 泛化能力有限 (Generalization):基于主观人类偏好训练出的奖励模型,往往难以泛化到训练数据分布之外的场景 。这使得模型容易找到奖励系统的漏洞并进行“奖励作弊”(Reward Hacking),即模型学会了如何获得高分,而不是真正地完成任务 。

  3. 缺乏统一的、根本性的优化目标:当前的奖励模型训练方法通常是针对特定的人类标准(如“无害性”),缺乏一个像“下一个词元预测”(Next Token Prediction)那样统一、普适且与具体标准无关的预训练目标 。这启发作者去寻找一个更底层的、可扩展的奖励模型预训练范式。

方法论

本文的核心观点:不再将奖励模型看作是绝对质量的评估器,而是将其重新定义为一个“策略判别器”(Policy Discriminator)。其核心思想是,奖励信号应该量化的是“当前模型策略”与“理想目标策略”之间的差异 。一个策略如果与目标策略更“相似”,就应该获得更高的奖励 。这个想法为建立一个可扩展的、与具体标准无关的预训练框架(POLAR)奠定了基础。

核心目标:训练一个Reward model来提供好的激励信号

作者分为三个阶段来训练这个奖励模型。

阶段1:预训练 (Pre-training)

  • 过程描述:

    1. 从一个包含多种不同模型(如图中的绿色和红色机器人)的“策略池”中,随机挑选两个不同的策略。

    2. 给定一个提示 p,让第一个策略(绿色机器人)生成两个不同的回答,即

    3. 同时,让第二个策略(红色机器人)也对同一个提示 p 生成一个回答

  • 学习目标:

    • 训练一个“预训练奖励模型”(Pre-training RM),使其满足以下条件:

    • 通俗解释:这个目标是教会奖励模型一个基本但核心的能力——识别策略的一致性。模型需要认识到,来自同一个策略的两个不同回答(,)之间的“差异度”要小于一个来自自身策略的回答(​​)和另一个来自不同策略的回答()之间的差异度。换句话说,它学会了给源自同一策略的回答对打出更高的“相似分”或“一致性分” 。这个过程是与具体标准无关的(criterion-agnostic),因为它不关心回答的好坏,只关心回答的“出处” 。

阶段2:微调 (Fine-tuning)

  • 过程描述:

    1. 使用一个策略模型(图中的米色机器人),针对一个提示 p 生成三个不同的回答。

    2. 人类标注员对这三个回答进行排序,标记出哪个是“最好 (Best)”,哪个是“较好 (Better)”,哪个是“最差 (Worst)”。图中将这三个回答分别表示为

  • 学习目标:

    • 在预训练模型的基础上进行微调,使其满足人类定义的标准 。目标函数为:
    • 通俗解释:这个阶段将模型在预训练中学到的通用“判别能力”与人类的价值观对齐。虽然三个回答可能来自同一个模型,但人类的排序行为隐含地定义了什么是“好”的标准 。模型学习到,以最好的回答 为参考时,较好的回答 应该比最差的回答 获得更高的奖励分数。

阶段3:使用:强化微调 (Usage: RFT)

  • 过程描述:

    1. 在实际应用中,我们有一个需要优化的策略模型(米色机器人)和一个代表人类期望的高质量“参考回答” (由人类专家或更强的模型提供,如图中的人类形象)。

    2. 策略模型针对提示生成一个“候选回答”

    3. 经过微调的奖励模型(Fine-tuning RM)会同时评估“候选回答” τ 和“参考回答” ,并输出一个奖励分数。这个分数衡量了候选回答与参考回答的相似或一致程度。

    4. 这个奖励信号被反馈给策略模型,通过强化学习算法来更新和优化模型,使其生成的回答越来越接近参考回答的质量。

这个方法虽然很平凡,但是实现效果却很好

如果您喜欢我的文章,可以考虑打赏以支持我继续创作.

其他文章
目录导航 置顶
  1. 1. Pre-Trained Policy Discriminators are General Reward Models
    1. 1.1. 文章要解决的问题
    2. 1.2. 方法论
请输入关键词进行搜索