最近读的论文实在太多了。一直没有功夫好好整理…终于今天闲了一点，于是抽空整理一下

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

本文来自快手的一篇技术报告。其核心思想就是通过修改clip机制，让高熵token能够保留梯度信息。

主要方法

我们注意到，传统的GRPO没有办法在clip之后保留梯度信息。但是高熵token很容易被clip，这样就导致丢失了一部分很重要的梯度信息。
因此作者做了这样的一个创新：

sg，即stop-gradient操作。会在反向传播的时候遇到的时候梯度清零。正向的时候返回sg(x) = x。
因此，正向传播的时候结果不变，但是反向传播的时候可以融入梯度信息。这样就保留了高熵token的梯度。经过试验，比DAPO的clip-higher要强。
可以考虑复现这个方法，挺有价值的