关键里程碑#
本文档总结了 AReaL 开发历程中的主要成就和里程碑,重点介绍各个版本发布的关键贡献。
AReaL-lite(2025年7月):让 RL 触手可及#
📖 分步教程
AReaL-lite 代表了对研究人员与强化学习系统交互方式的根本性重新思考。源于认识到 AReaL 的系统优先架构为 AI 研究人员设置了障碍,这个轻量级版本将算法开发置于基础设施复杂性之上。
AReaL-lite 实现了原始系统 90% 的功能,同时将代码库精简 80%。研究人员现在可以在单个文件内实现完整的 RL 工作流程,利用对机器学习社区来说很直观的 PyTorch -centric API。该架构遵循熟悉的 SPMD 模式,同时为异步训练和多轮智能体工作流提供原生支持。
也许最重要的是,AReaL-lite 弥合了研究实验与生产部署之间的差距。其清晰的抽象与现有 ML 工具无缝集成,同时保持了 AReaL 最初成功的性能特性。
架构演进:以下版本(v0.1-v0.3)是基于旧的
realhf代码库构建的。AReaL 现已完全过渡到新的areal架构,AReaL-lite 既作为独立系统,也作为未来开发的基础。
AReaL v0.3(2025年8月):突破速度壁垒#
📖 完整博客文章
0.3 版本标志着 AReaL 最大胆的架构飞跃:在不同的 GPU 集群上完全解耦生成和训练。这不仅仅是增量改进——它从根本上重新想象了 RL 系统可以扩展的方式,实现了令人瞩目的 2.77 倍加速,同时保持训练稳定性。
这一突破来自于解决两个长期困扰异步 RL 的关键挑战:数据陈旧性和生成过程中的策略版本不一致。通过创新的陈旧感知训练控制和新的解耦 PPO 目标,v0.3 将这些理论障碍转化为实际优势。系统现在可以在生成过程中处理权重更新而不会丢失进度,实现真正的大规模持续训练。
结果不言自明:AReaL 的 14B 模型在 LiveCodeBench v5 上取得了 69.1 分,在编码任务中建立了新的最先进性能。除此之外,v0.3 还引入了对多轮智能体工作流的实验支持,为复杂推理应用开辟了新的可能性。
模型 |
LiveCodeBench v5 |
Codeforce |
CodeContests |
|---|---|---|---|
AReaL-boba²-8B |
63.0 |
1962/97.5% |
40.8 |
AReaL-boba²-14B |
69.1 |
2044/98.2% |
46.1 |
AReaL v0.2(2025年3月):工程卓越与 SOTA 性能#
📖 完整博客文章
第二个主要版本专注于将 AReaL 从一个有前途的研究原型转变为生产就绪的系统。v0.2 的核心是从 vLLM 过渡到 SGLang v0.4.0,带来了复杂的基数注意力机制,显著提高了多响应采样场景的吞吐量——这正是 RL 训练所要求的。
但真正的突破来自于认识到 数据质量胜过算法复杂性。我们的团队精心策划了 10.6 万道高质量问题的重点数据集,战略性地过滤掉了基础模型已经达到完美准确率的情况。这种精确的数据策略方法与系统化工程优化相结合,取得了显著成效。
AReaL v0.2 产生了当时 性能最好的 7B 数学推理模型,在 AIME 2024 上达到 61.9 pass@1,在 AIME 2025 上达到 48.3。也许更令人印象深刻的是,团队证明了精心的数据策略只需 200 个高质量训练样本 就能达到具有竞争力的 32B 模型性能——这是”质量重于数量”理念的有力验证。
系统改进同样重要:动态序列打包消除了填充带来的内存浪费,而使用 GPU-Direct RDMA 的数据传输 enables 高效扩展到 1000+ GPU 集群。这些优化实现了 1.5 倍的吞吐量提升,使更多研究团队能够进行大规模实验。
模型 |
AIME 2024 |
AIME 2025 |
GPQA-Diamond |
|---|---|---|---|
AReaL-boba-RL-7B |
61.9 |
48.3 |
47.6 |
AReaL-boba-SFT-32B |
78.8 |
62.1 |
60.1 |
AReaL v0.1(2025年2月):奠定基石#
📖 完整博客文章
在最初发布时,AReaL 的 1.5B 模型在仅 40 小时的训练中就在数学推理方面超越了 o1-Preview。v0.1 还通过 R1-Zero 风格的训练在 Qwen2.5-7B 中展示了emergent的思考行为。随着训练的进展,模型同时发展出更长的推理链和更高的准确率——这是一个强烈的信号,表明系统正在学习”思考”而不是仅仅进行模式匹配。
技术基础简洁优雅:一种无评论家的 PPO 变体,以计算效率换取性能,辅以稀疏的二元奖励(+5/-5),让数学正确性驱动学习。
模型阶段 |
MATH500 |
AIME 2024 |
AMC 2023 |
|---|---|---|---|
阶段 1 (8K) |
85.7 |
33.2 |
74.7 |
阶段 2 (16K) |
87.4 |
34.2 |
79.6 |
阶段 3 (24K) |
88.0 |
40.2 |
81.2 |