banner
NEWS LETTER

SPPO :我的第一篇

Scroll down

关于这个工作,其实已经构思了很久了…
一直觉得,GRPO明明是一个工程的近似产物,但是却在RLVR上面比PPO表现好那么多,实在是一个让人费解的问题。
因此我开始深入思考原因。

GRPO和PPO的本质区别是什么?

一个很粗浅的回答是:Advantage的区别。
但是实际整个Framework被GRPO改了很大一部分。其实际的train_batch_size是
但是真正要思考的问题是,差的是Advantage的哪部分呢?

如果您喜欢我的文章,可以考虑打赏以支持我继续创作.

其他文章
目录导航 置顶
  1. 1. GRPO和PPO的本质区别是什么?
请输入关键词进行搜索