
AIxiv专栏是机器之心发布学术、工夫骨子的栏目。曩昔数年,机器之心AIxiv专栏接受报说念了2000多篇骨子ag竞咪百家乐,遮蔽各人各大高校与企业的顶级本质室,灵验促进了学术换取与传播。若是您有优秀的职责想要共享,宽宥投稿大致关连报说念。投稿邮箱:[email protected];[email protected]
本文是复旦大学学问工厂本质室肖仰华素养、梁家卿后生副盘问员科研团队的最新盘问效用,他们用神圣的代码高效复现了 R1-zero 的自愿反念念才气。
在对于 DeepSeek 的著述中,咱们会屡次听到「Aha Moment」这个词。它指的是模子在测验经过中履历的一种顿悟时间,进展为模子片刻展现出近似东说念主类的自我反念念和计策调解才气。
DeepSeek 论文中提到的 Aha Moment。

DeepSeek-R1-zero 经过强化学习竣事了大模子顿悟时间的自愿知道,激发了大量对其决议的解读与复现职责。
其中,基于 GRPO( Group Relative Policy Optimization)强化学习决议尤其受到温雅。业界先后开源了多个基于 GRPO 算法的 R1-zero 复现表情。可是,这些复现表情严重依赖一些复杂代码框架,有着较高的代码竣事复杂度,对部署环境存在较高依赖,资源愚弄率不高,代码可读性与可治愈性仍存在篡改空间。
对此,复旦大学学问工厂本质室肖仰华素养、梁家卿后生副盘问员科研团队基于 GRPO 算法念念想高效复现了 R1-zero 自愿反念念才气。当今,该表情(Simple-GRPO)的初版代码竣事依然开源并提交 Github。

代码地址:https://github.com/lsdefine/simple_GRPO。
该表情相对于现存开源的 R1-zero 复现具有以下上风:
代码神圣,依赖简短,只需要 200 多行;
资源浮滥低,通过模子解耦与分别进一步裁减算力需求,该表情解救在一张 A800 (80G) 加一张 3090 (24G) 完成 7B 模子的测验。左证 AutoDL 平台计费瓜代,一张 A800 (80G) 5.98 元 / 时,一张 3090 (24G) 1.32 元 / 时。以表情作家教授,模子在这么的算力平台下,测验 1h 模子就能出现 aha moment,折合东说念主民币 7.3 元,单次本质本钱压缩至奶茶价钱区间。
表情先容
本表情代码简短,GRPO 算法竣事仅有 200 多行代码,且仅依赖基础的深度学习代码库,如 deepspeed 和 torch,而无需 ray 等复杂框架。具体竣事细节如下:
① 参考模子分别:
在竣事经过中,参考模子(reference model)被解耦,允许其在不同的 GPU 上运行(致使不错运行在 3090 显卡上)。这幸免了将参考模子和测验模子放在统一个 GPU 上,防患 torch 的多进度机制创建多个副本,幸免显存糜费,并使得在 A800(80G)上测验 7B 模子成为可能。
② 中枢蚀本策较:
蚀本策较公式基于 Hugging Face 的 trl 竣事。
③ 测验环境与经过
表情在 1 张 A800(80G)显卡上用 Zero-Stage 2 作念优化,使用另一张 A800(80G)显卡进行参考模子的推理,参考模子分别使得 GRPO 的测验愈加高效。
在以上测验环境中,百家乐AGQwen2.5-3B 测验 60 步需要 12 分 34 秒,Qwen2.5-7B 测验 60 步需要 16 分 40 秒。其中在前 30 步优化中,Qwen2.5-7B 和 Qwen2.5-3B 的输出骨子中,均出现了「顿悟时间」景观。示举例下:
Qwen2.5-3B(时局 20)


其华文翻译如下:
... 要找出卡姆登画的鸡蛋比阿诺德多几许,咱们从卡姆登画的鸡蛋数目中减去阿诺德画的鸡蛋数目。是以,21-28 = -7。可是,这个死亡在问题的布景下没稀奇旨,因为卡姆登画的鸡蛋不能能比阿诺德少。让咱们再行谈判起始的惩处决议时局:咱们应该考据对于卡姆登和莎拉的鸡蛋之间关系的发轫假定是否正确 。...
-7
Qwen2.5-7B(时局 20)


其华文翻译如下:
... 因此,Joanne 从正常树上摘了 350 个苹果。但是,这似乎不合,因为总额应该是 500 个,而咱们依然计较了 150 个,只剩下 350 个正常树上的苹果,这与总额相矛盾。让咱们再行评估一下。...
350
本质死亡
使用 Qwen2.5-3B 和 Qwen2.5-7B 算作基础模子,测试了模子测验经过中正确率(左图)和时局治服才气(右图)的变化情况,相比适合预期。
Qwen2.5-3B:

在 GSM8K 和 Math 夹杂数据集进行测验,从上图不错看出,Qwen2.5-3B 的准确率在履历 5 步的优化后能清醒在 60% 以上,最高能达到 70% 傍边;时局治服才气在 30 步以后接近 100%.
Qwen2.5-7B

在 GSM8K 数据集上进行测验,从上图不错看出,Qwen2.5-7B 的不管是准确率照旧时局治服才气王人能在三十步以内快速治理,准确率(左图)恒久保握在 90% 以上,时局治服才气(右图)到达 100%.
篡改标的
近期本表情将进一步推出以下标的的优化版块,敬请温雅。
组内谜底同质性问题
左证 GRPO 算法中的分组计策,当组内谜底沿途正确或全为失及时,奖励函数无法灵验分拨互异化奖励,强化学习将缺乏对比性的测验信号,导致模子难以治理。后续将在测验经过中及时监控谜底散布,对同质化的谜底进行再行采样和分组,以提供灵验的对比信号。
长念念维链(CoT)显存占用问题
当模子生成较长的念念维链(CoT)时,由于文本序列长度较长,显存占用会权贵加多。对此,后续谈判拆分组别,减小批次大小,或对长序列分阶段处理,以减小测验经过中的 GPU 内存支拨,培植测验效用。