banner
NEWS LETTER

7.10 阅读笔记

Scroll down

First Return, Entropy-Eliciting Explore

文章要解决的问题

  • 信用分配问题:rule-based问题主要导致的结果。不知道哪一步做得好,哪一步写得差。限制了学习效率
  • 价值模型的不稳定性:一些方法引入了独立的“评论家”模型,但是,训练一个准确又稳定的价值模型非常的困难。常常导致训练不稳定。
  • 启发式方法的局限性:一些提供中间反馈的方法,比如过程奖励模型或者VinePPO,又极度依赖人工标注或脆弱的启发式规则。

方法论

主要分为两个阶段
阶段一:找到值得探索的关键点
1. 首先生成基础轨迹
2. 计算逐词的熵。
3. 定位熵最高的前K个位置。
4. 构建中间状态。这些高熵点被用作“断点”,将原始的长轨迹切分为若干个语义块。定义为从开头到第个高熵点为止的推理前缀

阶段二:熵引导的探索。
- 进行靶向采样 (Targeted Rollouts): 从每一个识别出的中间状态 出发,让模型独立地、多次地(比如M次)继续生成,直到完成整个推理。这被称为“部分采样”,因为它不是从头开始,而是从一个有意义的中间点开始。

  • 评估采样结果: 对这M条从 出发完成的路径,根据最终答案的正确与否,分别给予0或1的奖励。

  • 估计中间状态的价值: 中间状态 的价值 ,就被经验性地估计为这M次采样的平均奖励。

然后,通过这个奖励,我们再进行强化学习。就可以构建更精确的奖励了。
阶段三:构建奖励优势函数。
构建一个放缩因子,使得两个重要节点之间的价值变化可以被衡量。

最后,通过这部分,我们就可以构建一个更好的优势函数了。

今天主要以思考为主,论文整理的很少。

如果您喜欢我的文章,可以考虑打赏以支持我继续创作.

其他文章
目录导航 置顶
  1. 1. First Return, Entropy-Eliciting Explore
    1. 1.1. 文章要解决的问题
    2. 1.2. 方法论
请输入关键词进行搜索