Pre-Trained Policy Discriminators are General Reward Models

文章要解决的问题

这篇论文旨在解决当前大型语言模型（LLM）在通过强化学习（RL）进行后期训练时，其核心组件——奖励模型（Reward Model, RM）——所面临的几个根本性挑战：

可扩展性问题 (Scalability)：传统的奖励模型依赖于大量高质量的人工标注偏好数据（即“哪个回答更好”）。获取这种数据的成本非常高昂，规模也难以扩大。
泛化能力有限 (Generalization)：基于主观人类偏好训练出的奖励模型，往往难以泛化到训练数据分布之外的场景。这使得模型容易找到奖励系统的漏洞并进行“奖励作弊”（Reward Hacking），即模型学会了如何获得高分，而不是真正地完成任务。
缺乏统一的、根本性的优化目标：当前的奖励模型训练方法通常是针对特定的人类标准（如“无害性”），缺乏一个像“下一个词元预测”（Next Token Prediction）那样统一、普适且与具体标准无关的预训练目标。这启发作者去寻找一个更底层的、可扩展的奖励模型预训练范式。

方法论

本文的核心观点：不再将奖励模型看作是绝对质量的评估器，而是将其重新定义为一个“策略判别器”（Policy Discriminator）。其核心思想是，奖励信号应该量化的是“当前模型策略”与“理想目标策略”之间的差异。一个策略如果与目标策略更“相似”，就应该获得更高的奖励。这个想法为建立一个可扩展的、与具体标准无关的预训练框架（POLAR）奠定了基础。

核心目标：训练一个Reward model来提供好的激励信号

作者分为三个阶段来训练这个奖励模型。

阶段1：预训练 (Pre-training)

过程描述:
1. 从一个包含多种不同模型（如图中的绿色和红色机器人）的“策略池”中，随机挑选两个不同的策略。
2. 给定一个提示 p，让第一个策略（绿色机器人）生成两个不同的回答，即和。
3. 同时，让第二个策略（红色机器人）也对同一个提示 p 生成一个回答。
学习目标:
- 训练一个“预训练奖励模型”（Pre-training RM），使其满足以下条件：
- 通俗解释：这个目标是教会奖励模型一个基本但核心的能力——识别策略的一致性。模型需要认识到，来自同一个策略的两个不同回答（,）之间的“差异度”要小于一个来自自身策略的回答（）和另一个来自不同策略的回答（）之间的差异度。换句话说，它学会了给源自同一策略的回答对打出更高的“相似分”或“一致性分” 。这个过程是与具体标准无关的（criterion-agnostic），因为它不关心回答的好坏，只关心回答的“出处” 。

阶段2：微调 (Fine-tuning)

过程描述:
1. 使用一个策略模型（图中的米色机器人），针对一个提示 p 生成三个不同的回答。
2. 人类标注员对这三个回答进行排序，标记出哪个是“最好 (Best)”，哪个是“较好 (Better)”，哪个是“最差 (Worst)”。图中将这三个回答分别表示为
学习目标:
- 在预训练模型的基础上进行微调，使其满足人类定义的标准。目标函数为：
- 通俗解释：这个阶段将模型在预训练中学到的通用“判别能力”与人类的价值观对齐。虽然三个回答可能来自同一个模型，但人类的排序行为隐含地定义了什么是“好”的标准。模型学习到，以最好的回答为参考时，较好的回答应该比最差的回答获得更高的奖励分数。

阶段3：使用：强化微调 (Usage: RFT)

过程描述:
1. 在实际应用中，我们有一个需要优化的策略模型（米色机器人）和一个代表人类期望的高质量“参考回答” （由人类专家或更强的模型提供，如图中的人类形象）。
2. 策略模型针对提示生成一个“候选回答” 。
3. 经过微调的奖励模型（Fine-tuning RM）会同时评估“候选回答” τ 和“参考回答” ，并输出一个奖励分数。这个分数衡量了候选回答与参考回答的相似或一致程度。
4. 这个奖励信号被反馈给策略模型，通过强化学习算法来更新和优化模型，使其生成的回答越来越接近参考回答的质量。

这个方法虽然很平凡，但是实现效果却很好

7.11 阅读笔记

BIMU

Pre-Trained Policy Discriminators are General Reward Models

文章要解决的问题

方法论

阶段1：预训练 (Pre-training)

阶段2：微调 (Fine-tuning)

阶段3：使用：强化微调 (Usage: RFT)

其他文章

7.14 阅读笔记

反思：什么样的推理数据是好的