# 关键里程碑

本文档总结了 AReaL 开发历程中的主要成就和里程碑，重点介绍各个版本发布的关键贡献。

## AReaL-lite（2025年7月）：让 RL 触手可及

*📖 [分步教程](https://inclusionai.github.io/AReaL/zh/tutorial/gsm8k_grpo.html)*

AReaL-lite 代表了对研究人员与强化学习系统交互方式的根本性重新思考。源于认识到 AReaL 的系统优先架构为 AI
研究人员设置了障碍，这个轻量级版本将算法开发置于基础设施复杂性之上。

AReaL-lite 实现了原始系统 90% 的功能，同时将代码库精简 80%。研究人员现在可以在单个文件内实现完整的 RL 工作流程，利用对机器学习社区来说很直观的
PyTorch -centric API。该架构遵循熟悉的 SPMD 模式，同时为异步训练和多轮智能体工作流提供原生支持。

也许最重要的是，AReaL-lite 弥合了研究实验与生产部署之间的差距。其清晰的抽象与现有 ML 工具无缝集成，同时保持了 AReaL 最初成功的性能特性。

> **架构演进**：以下版本（v0.1-v0.3）是基于旧的 `realhf` 代码库构建的。AReaL 现已完全过渡到新的 `areal` 架构，AReaL-lite
> 既作为独立系统，也作为未来开发的基础。

## AReaL v0.3（2025年8月）：突破速度壁垒

*📖 [完整博客文章](https://github.com/inclusionAI/AReaL/blob/main/blog/AReaL_v0_3.md)*

0.3 版本标志着 AReaL 最大胆的架构飞跃：在不同的 GPU 集群上完全解耦生成和训练。这不仅仅是增量改进——它从根本上重新想象了 RL
系统可以扩展的方式，实现了令人瞩目的 **2.77 倍加速**，同时保持训练稳定性。

这一突破来自于解决两个长期困扰异步 RL 的关键挑战：数据陈旧性和生成过程中的策略版本不一致。通过创新的陈旧感知训练控制和新的解耦 PPO 目标，v0.3
将这些理论障碍转化为实际优势。系统现在可以在生成过程中处理权重更新而不会丢失进度，实现真正的大规模持续训练。

结果不言自明：AReaL 的 14B 模型在 **LiveCodeBench v5** 上取得了 **69.1 分**，在编码任务中建立了新的最先进性能。除此之外，v0.3
还引入了对多轮智能体工作流的实验支持，为复杂推理应用开辟了新的可能性。

| 模型            | LiveCodeBench v5 | Codeforce  | CodeContests |
| --------------- | ---------------- | ---------- | ------------ |
| AReaL-boba²-8B  | **63.0**         | 1962/97.5% | 40.8         |
| AReaL-boba²-14B | **69.1**         | 2044/98.2% | 46.1         |

## AReaL v0.2（2025年3月）：工程卓越与 SOTA 性能

*📖 [完整博客文章](https://github.com/inclusionAI/AReaL/blob/main/blog/AReaL_v0_2.md)*

第二个主要版本专注于将 AReaL 从一个有前途的研究原型转变为生产就绪的系统。v0.2 的核心是从 vLLM 过渡到 SGLang
v0.4.0，带来了复杂的基数注意力机制，显著提高了多响应采样场景的吞吐量——这正是 RL 训练所要求的。

但真正的突破来自于认识到 **数据质量胜过算法复杂性**。我们的团队精心策划了 10.6
万道高质量问题的重点数据集，战略性地过滤掉了基础模型已经达到完美准确率的情况。这种精确的数据策略方法与系统化工程优化相结合，取得了显著成效。

AReaL v0.2 产生了当时 **性能最好的 7B 数学推理模型**，在 AIME 2024 上达到 61.9 pass@1，在 AIME 2025 上达到
48.3。也许更令人印象深刻的是，团队证明了精心的数据策略只需 **200 个高质量训练样本** 就能达到具有竞争力的 32B 模型性能——这是"质量重于数量"理念的有力验证。

系统改进同样重要：动态序列打包消除了填充带来的内存浪费，而使用 GPU-Direct RDMA 的数据传输 enables 高效扩展到 1000+ GPU 集群。这些优化实现了
**1.5 倍的吞吐量提升**，使更多研究团队能够进行大规模实验。

| 模型               | AIME 2024 | AIME 2025 | GPQA-Diamond |
| ------------------ | --------- | --------- | ------------ |
| AReaL-boba-RL-7B   | **61.9**  | **48.3**  | **47.6**     |
| AReaL-boba-SFT-32B | 78.8      | 62.1      | 60.1         |

## AReaL v0.1（2025年2月）：奠定基石

*📖 [完整博客文章](https://github.com/inclusionAI/AReaL/blob/main/blog/AReaL_v0_1.md)*

在最初发布时，AReaL 的 1.5B 模型在仅 40 小时的训练中就在数学推理方面超越了 o1-Preview。v0.1 还通过 R1-Zero 风格的训练在
Qwen2.5-7B
中展示了emergent的思考行为。随着训练的进展，模型同时发展出更长的推理链和更高的准确率——这是一个强烈的信号，表明系统正在学习"思考"而不是仅仅进行模式匹配。

技术基础简洁优雅：一种无评论家的 PPO 变体，以计算效率换取性能，辅以稀疏的二元奖励（+5/-5），让数学正确性驱动学习。

| 模型阶段     | MATH500  | AIME 2024 | AMC 2023 |
| ------------ | -------- | --------- | -------- |
| 阶段 1 (8K)  | 85.7     | 33.2      | 74.7     |
| 阶段 2 (16K) | 87.4     | 34.2      | 79.6     |
| 阶段 3 (24K) | **88.0** | **40.2**  | **81.2** |
