关键里程碑#

本文档总结了 AReaL 开发历程中的主要成就和里程碑,重点介绍各个版本发布的关键贡献。

AReaL-lite(2025年7月):让 RL 触手可及#

📖 分步教程

AReaL-lite 代表了对研究人员与强化学习系统交互方式的根本性重新思考。源于认识到 AReaL 的系统优先架构为 AI 研究人员设置了障碍,这个轻量级版本将算法开发置于基础设施复杂性之上。

AReaL-lite 实现了原始系统 90% 的功能,同时将代码库精简 80%。研究人员现在可以在单个文件内实现完整的 RL 工作流程,利用对机器学习社区来说很直观的 PyTorch -centric API。该架构遵循熟悉的 SPMD 模式,同时为异步训练和多轮智能体工作流提供原生支持。

也许最重要的是,AReaL-lite 弥合了研究实验与生产部署之间的差距。其清晰的抽象与现有 ML 工具无缝集成,同时保持了 AReaL 最初成功的性能特性。

架构演进:以下版本(v0.1-v0.3)是基于旧的 realhf 代码库构建的。AReaL 现已完全过渡到新的 areal 架构,AReaL-lite 既作为独立系统,也作为未来开发的基础。

AReaL v0.3(2025年8月):突破速度壁垒#

📖 完整博客文章

0.3 版本标志着 AReaL 最大胆的架构飞跃:在不同的 GPU 集群上完全解耦生成和训练。这不仅仅是增量改进——它从根本上重新想象了 RL 系统可以扩展的方式,实现了令人瞩目的 2.77 倍加速,同时保持训练稳定性。

这一突破来自于解决两个长期困扰异步 RL 的关键挑战:数据陈旧性和生成过程中的策略版本不一致。通过创新的陈旧感知训练控制和新的解耦 PPO 目标,v0.3 将这些理论障碍转化为实际优势。系统现在可以在生成过程中处理权重更新而不会丢失进度,实现真正的大规模持续训练。

结果不言自明:AReaL 的 14B 模型在 LiveCodeBench v5 上取得了 69.1 分,在编码任务中建立了新的最先进性能。除此之外,v0.3 还引入了对多轮智能体工作流的实验支持,为复杂推理应用开辟了新的可能性。

模型

LiveCodeBench v5

Codeforce

CodeContests

AReaL-boba²-8B

63.0

1962/97.5%

40.8

AReaL-boba²-14B

69.1

2044/98.2%

46.1

AReaL v0.2(2025年3月):工程卓越与 SOTA 性能#

📖 完整博客文章

第二个主要版本专注于将 AReaL 从一个有前途的研究原型转变为生产就绪的系统。v0.2 的核心是从 vLLM 过渡到 SGLang v0.4.0,带来了复杂的基数注意力机制,显著提高了多响应采样场景的吞吐量——这正是 RL 训练所要求的。

但真正的突破来自于认识到 数据质量胜过算法复杂性。我们的团队精心策划了 10.6 万道高质量问题的重点数据集,战略性地过滤掉了基础模型已经达到完美准确率的情况。这种精确的数据策略方法与系统化工程优化相结合,取得了显著成效。

AReaL v0.2 产生了当时 性能最好的 7B 数学推理模型,在 AIME 2024 上达到 61.9 pass@1,在 AIME 2025 上达到 48.3。也许更令人印象深刻的是,团队证明了精心的数据策略只需 200 个高质量训练样本 就能达到具有竞争力的 32B 模型性能——这是”质量重于数量”理念的有力验证。

系统改进同样重要:动态序列打包消除了填充带来的内存浪费,而使用 GPU-Direct RDMA 的数据传输 enables 高效扩展到 1000+ GPU 集群。这些优化实现了 1.5 倍的吞吐量提升,使更多研究团队能够进行大规模实验。

模型

AIME 2024

AIME 2025

GPQA-Diamond

AReaL-boba-RL-7B

61.9

48.3

47.6

AReaL-boba-SFT-32B

78.8

62.1

60.1

AReaL v0.1(2025年2月):奠定基石#

📖 完整博客文章

在最初发布时,AReaL 的 1.5B 模型在仅 40 小时的训练中就在数学推理方面超越了 o1-Preview。v0.1 还通过 R1-Zero 风格的训练在 Qwen2.5-7B 中展示了emergent的思考行为。随着训练的进展,模型同时发展出更长的推理链和更高的准确率——这是一个强烈的信号,表明系统正在学习”思考”而不是仅仅进行模式匹配。

技术基础简洁优雅:一种无评论家的 PPO 变体,以计算效率换取性能,辅以稀疏的二元奖励(+5/-5),让数学正确性驱动学习。

模型阶段

MATH500

AIME 2024

AMC 2023

阶段 1 (8K)

85.7

33.2

74.7

阶段 2 (16K)

87.4

34.2

79.6

阶段 3 (24K)

88.0

40.2

81.2