banner
NEWS LETTER

8.13阅读笔记总结

Scroll down

最近读的论文实在太多了。一直没有功夫好好整理…终于今天闲了一点,于是抽空整理一下

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

本文来自快手的一篇技术报告。其核心思想就是通过修改clip机制,让高熵token能够保留梯度信息。

主要方法


我们注意到,传统的GRPO没有办法在clip之后保留梯度信息。但是高熵token很容易被clip,这样就导致丢失了一部分很重要的梯度信息。
因此作者做了这样的一个创新:

sg,即stop-gradient操作。会在反向传播的时候遇到的时候梯度清零。正向的时候返回sg(x) = x。
因此,正向传播的时候结果不变,但是反向传播的时候可以融入梯度信息。这样就保留了高熵token的梯度。经过试验,比DAPO的clip-higher要强。
可以考虑复现这个方法,挺有价值的

DAPO

主要方法

有一些比较重要的trick需要理解

Clip-higher

引入非对称的clip,提出允许一定程度的探索。

Dynamic Sampling

有可能一个组的答案全是对的。那么需要丢弃一部分,直到生成的有错误的才可以。

token-level gradient loss

Overlong Reward Shaping

当响应长度超过预定义的最大值时,我们定义一个惩罚区间。在该区间内,响应越长,受到的惩罚越大。这种惩罚添加到原始基于规则的正确性奖励中,从而向模型发出避免过长响应的信号。

如果您喜欢我的文章,可以考虑打赏以支持我继续创作.

其他文章
目录导航 置顶
  1. 1. Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
    1. 1.1. 主要方法
  2. 2. DAPO
  3. 3. 主要方法
    1. 3.1. Clip-higher
  4. 4. Dynamic Sampling
    1. 4.1. token-level gradient loss
    2. 4.2. Overlong Reward Shaping
请输入关键词进行搜索