GENERALIST REWARD MODELS- FOUND INSIDE LARGE LANGUAGE MODELS

前置准备：Maximum Entropy IRL

要理解周老师的这篇最新的作品，势必要先理解这篇Maximum Entropy IRL。IRL的工作主要是在给定专家行为轨迹的情况下，模仿学习出一个新的模型，因此被称作逆强化学习。

我们知道，逆强化学习的过程的核心问题在于模糊化。即，对于给定的轨迹，可能有多个奖励分布符合条件。但是，本篇的工作主要采用最大熵原理，即使用最大熵的奖励模型来拟合。

由于最大熵模型的解的形式必然是指数族分布，那么我们势必就可以用指数族分布来参数化轨迹的概率网络。本篇采用玻尔兹曼分布进行参数化。
其中，是分布的参数，是第i条路径的特征向量。
至于为什么采用玻尔兹曼分布，这里做一个简要的说明。由于本篇的工作可以概括为：
1. 概率之和为1： (所有概率分布都必须满足)
2. 特征期望匹配： (对于每一种特征)
的条件下，最大化
运用拉格朗日乘数法进行求导求解之后，得到的形式便是玻尔兹曼分布。

接下来，这篇工作运用极大似然估计的原理，构建似然
对其求导我们可以得到
这个公式的含义是：“上山”的方向 = (专家的平均行为特征) - (当前模型 πθ 的平均行为特征)

: 是我们从数据中直接观察到的、专家所有演示路径的平均特征。这是一个已知的、固定的值。
: 是在我们当前的奖励权重 θ下，模型自己预测的所有可能路径的加权平均特征。这是一个需要计算的值。

因此，通过梯度上升的算法，我们便可以求解出最大似然下的参数

本篇要解决的问题

目前，LLM在对齐领域不可避免的需要依赖外部的奖励模型。我们不得不花费大量的成本来标注一个具有人类偏好的数据集。并用它来训练一个独立的奖励模型。
为了避免人工成本，研究者们提出用RLAIF的方法来对齐更强的AI。但是这些方法通常是启发式的，缺乏理论基础，容易让学生模型学到裁判模型的风格偏见。

相关工作包括：RLHF，RLAIF，IRL，DPO等

本篇核心观点

这篇论文的核心贡献是提出了一个颠覆性的发现：一个强大的、通用的奖励模型，根本不需要从外部构建，因为它已经内在地、潜在地存在于任何通过标准“下一个词元预测”训练的语言模型之中。作者将这种奖励称为 “内生奖励”（Endogenous Reward）。

作者首先指出，RLHF范式本质上是一个简化过的IRL过程。

这是原最大熵IRL论文中目标函数的对偶形式。这里不做详细的理论推导。但是由于在最大熵的框架下，一个理性智能体的行为概率分布，应该与其获得的回报呈指数关系。我们可以假设，其中是采样得到的路径。关于如何做出这个假设，可以看我最后的附录部分的推导。
因此，我们容易看出，这个博弈函数的纳什均衡在于，无论如何改变都无法使得函数更大。
因此我们对函数进行求导可以看出，
当且仅当二者期望相同的时候，我们能够取得极值点。因此和我们原来的最大熵的原理的假设一致。

这个公式的目标，可以看作是RLHF中使用的那个reward model的一个更通用的、分布层面的公式化的描述。他不再通过学习赢家和输家之间的得分差异来学习一个奖励函数，而是比较整个专家分布在奖励模型下产生的最优竞争策略。
其中的min项会找到最强的模型，max项会找到能够区分二人的奖励函数，让基础模型可以更好的学习专家模型。

从这个角度看，RLHF的奖励建模过程可以被解释为IRL原理的一个实践上、计算上易于处理的实例化 。RLHF并没有去解决那个复杂的‘min’优化问题，而是将其简化，直接在偏好数据集中最大化“赢家”和“输家”之间的奖励差额。因此，BT模型是IRL提供的更广泛理论框架中的一个特例。我们的工作回归到这个更通用的IRL公式，以便直接推导出一个奖励函数，而无需进行显式的成对比较。

于是，作者提出我们可以直接用一个更基础的IRL方法来恢复那个能够最好的解释专家数据集上的奖励函数。但是由于大部分的IRL方法都是适用于在线学习的。因此作者引入了inverse soft Q-learning的离线IRL方法来构建这个问题。该方法旨在找到一个能够最好地解释静态数据集D中专家数据的Q函数。即解决下面这个优化问题：

一旦我们成功找出了最优的Q函数，那么，理想的奖励函数便可以通过逆向软贝尔曼算子来恢复，即：
作者这里的核心观点就是：的解，实际上并不需要从头计算，而是隐藏在任何next token prediction的模型中。我们将上面的Q函数优化问题表述成一个最大似然问题，得到：
这刚好就是next token prediction的目标函数。因此作者总结了如下的命题：

于是，我们可以将LLM得到的logits，直接作为Q函数代入到方程中，最终解得奖励的形式：

由此，作者还提出，GenRM也是这个框架下的一个特殊情况。即
后续作者提供了这个方法的一些理论辩护，主要给出的启示是：
- 基础模型的模仿能力，直接决定了从它内部提取出的奖励模型的判断能力
- RL训练方法得到的误差并不会积累，而模仿学习的误差会积累，并且是平方的速率积累
- 这种自我进化式的方法，实际上并不能持续提升自我，从自我提取出的内生奖励，恰好就是之前的最优奖励，这个过程会逐步收敛于一个最优的策略，从而停止进化。