First Return, Entropy-Eliciting Explore
文章要解决的问题
- 信用分配问题:rule-based问题主要导致的结果。不知道哪一步做得好,哪一步写得差。限制了学习效率
- 价值模型的不稳定性:一些方法引入了独立的“评论家”模型,但是,训练一个准确又稳定的价值模型非常的困难。常常导致训练不稳定。
- 启发式方法的局限性:一些提供中间反馈的方法,比如过程奖励模型或者VinePPO,又极度依赖人工标注或脆弱的启发式规则。
方法论
主要分为两个阶段
阶段一:找到值得探索的关键点
1. 首先生成基础轨迹
2. 计算逐词的熵。
3. 定位熵最高的前K个位置。
4.
构建中间状态。这些高熵点被用作“断点”,将原始的长轨迹切分为若干个语义块。定义
阶段二:熵引导的探索。
- 进行靶向采样 (Targeted Rollouts): 从每一个识别出的中间状态
评估采样结果: 对这M条从
出发完成的路径,根据最终答案的正确与否,分别给予0或1的奖励。 估计中间状态的价值: 中间状态
的价值 ,就被经验性地估计为这M次采样的平均奖励。
然后,通过这个奖励,我们再进行强化学习。就可以构建更精确的奖励了。
阶段三:构建奖励优势函数。
最后,通过这部分,我们就可以构建一个更好的优势函数了。
今天主要以思考为主,论文整理的很少。
如果您喜欢我的文章,可以考虑打赏以支持我继续创作.