关于这个工作,其实已经构思了很久了…
一直觉得,GRPO明明是一个工程的近似产物,但是却在RLVR上面比PPO表现好那么多,实在是一个让人费解的问题。
因此我开始深入思考原因。
GRPO和PPO的本质区别是什么?
一个很粗浅的回答是:Advantage的区别。
但是实际整个Framework被GRPO改了很大一部分。其实际的train_batch_size是
但是真正要思考的问题是,差的是Advantage的哪部分呢?
如果您喜欢我的文章,可以考虑打赏以支持我继续创作.
关于这个工作,其实已经构思了很久了…
一直觉得,GRPO明明是一个工程的近似产物,但是却在RLVR上面比PPO表现好那么多,实在是一个让人费解的问题。
因此我开始深入思考原因。
一个很粗浅的回答是:Advantage的区别。
但是实际整个Framework被GRPO改了很大一部分。其实际的train_batch_size是
但是真正要思考的问题是,差的是Advantage的哪部分呢?
如果您喜欢我的文章,可以考虑打赏以支持我继续创作.