关键里程碑

关键里程碑#

本文档总结了 AReaL 开发历程中的主要成就和里程碑，重点介绍各个版本发布的关键贡献。

AReaL-lite（2025年7月）：让 RL 触手可及#

AReaL-lite 代表了对研究人员与强化学习系统交互方式的根本性重新思考。源于认识到 AReaL 的系统优先架构为 AI 研究人员设置了障碍，这个轻量级版本将算法开发置于基础设施复杂性之上。

AReaL-lite 实现了原始系统 90% 的功能，同时将代码库精简 80%。研究人员现在可以在单个文件内实现完整的 RL 工作流程，利用对机器学习社区来说很直观的 PyTorch -centric API。该架构遵循熟悉的 SPMD 模式，同时为异步训练和多轮智能体工作流提供原生支持。

也许最重要的是，AReaL-lite 弥合了研究实验与生产部署之间的差距。其清晰的抽象与现有 ML 工具无缝集成，同时保持了 AReaL 最初成功的性能特性。

架构演进：以下版本（v0.1-v0.3）是基于旧的 realhf 代码库构建的。AReaL 现已完全过渡到新的 areal 架构，AReaL-lite 既作为独立系统，也作为未来开发的基础。

AReaL v0.3（2025年8月）：突破速度壁垒#

📖 完整博客文章

0.3 版本标志着 AReaL 最大胆的架构飞跃：在不同的 GPU 集群上完全解耦生成和训练。这不仅仅是增量改进——它从根本上重新想象了 RL 系统可以扩展的方式，实现了令人瞩目的 2.77 倍加速，同时保持训练稳定性。

这一突破来自于解决两个长期困扰异步 RL 的关键挑战：数据陈旧性和生成过程中的策略版本不一致。通过创新的陈旧感知训练控制和新的解耦 PPO 目标，v0.3 将这些理论障碍转化为实际优势。系统现在可以在生成过程中处理权重更新而不会丢失进度，实现真正的大规模持续训练。

结果不言自明：AReaL 的 14B 模型在 LiveCodeBench v5 上取得了 69.1 分，在编码任务中建立了新的最先进性能。除此之外，v0.3 还引入了对多轮智能体工作流的实验支持，为复杂推理应用开辟了新的可能性。

模型	LiveCodeBench v5	Codeforce	CodeContests
AReaL-boba²-8B	63.0	1962/97.5%	40.8
AReaL-boba²-14B	69.1	2044/98.2%	46.1

AReaL v0.2（2025年3月）：工程卓越与 SOTA 性能#

📖 完整博客文章

第二个主要版本专注于将 AReaL 从一个有前途的研究原型转变为生产就绪的系统。v0.2 的核心是从 vLLM 过渡到 SGLang v0.4.0，带来了复杂的基数注意力机制，显著提高了多响应采样场景的吞吐量——这正是 RL 训练所要求的。

但真正的突破来自于认识到 数据质量胜过算法复杂性。我们的团队精心策划了 10.6 万道高质量问题的重点数据集，战略性地过滤掉了基础模型已经达到完美准确率的情况。这种精确的数据策略方法与系统化工程优化相结合，取得了显著成效。

AReaL v0.2 产生了当时 性能最好的 7B 数学推理模型，在 AIME 2024 上达到 61.9 pass@1，在 AIME 2025 上达到 48.3。也许更令人印象深刻的是，团队证明了精心的数据策略只需 200 个高质量训练样本 就能达到具有竞争力的 32B 模型性能——这是”质量重于数量”理念的有力验证。

系统改进同样重要：动态序列打包消除了填充带来的内存浪费，而使用 GPU-Direct RDMA 的数据传输 enables 高效扩展到 1000+ GPU 集群。这些优化实现了 1.5 倍的吞吐量提升，使更多研究团队能够进行大规模实验。

模型	AIME 2024	AIME 2025	GPQA-Diamond
AReaL-boba-RL-7B	61.9	48.3	47.6
AReaL-boba-SFT-32B	78.8	62.1	60.1

AReaL v0.1（2025年2月）：奠定基石#

📖 完整博客文章

在最初发布时，AReaL 的 1.5B 模型在仅 40 小时的训练中就在数学推理方面超越了 o1-Preview。v0.1 还通过 R1-Zero 风格的训练在 Qwen2.5-7B 中展示了emergent的思考行为。随着训练的进展，模型同时发展出更长的推理链和更高的准确率——这是一个强烈的信号，表明系统正在学习”思考”而不是仅仅进行模式匹配。

技术基础简洁优雅：一种无评论家的 PPO 变体，以计算效率换取性能，辅以稀疏的二元奖励（+5/-5），让数学正确性驱动学习。

模型阶段	MATH500	AIME 2024	AMC 2023
阶段 1 (8K)	85.7	33.2	74.7
阶段 2 (16K)	87.4	34.2	79.6
阶段 3 (24K)	88.0	40.2	81.2

关键里程碑

Contents

关键里程碑#

AReaL-lite（2025年7月）：让 RL 触手可及#

AReaL v0.3（2025年8月）：突破速度壁垒#

AReaL v0.2（2025年3月）：工程卓越与 SOTA 性能#

AReaL v0.1（2025年2月）：奠定基石#