概述# 欢迎阅读 AReaL 文档!# 版本历史 关键里程碑 教程 安装指南 安装指南(昇腾 NPU) 快速入门 智能体强化学习 在线 RL 训练 评估 大型 MoE 模型微调 Archon:PyTorch 原生训练引擎 配置参考 代码详解 在 GSM8K 数据集上运行 GRPO 最佳实践 诊断 RL 性能问题 编写 Agent Workflow 调试指南 处理 OOM 问题 性能分析 定制指南 数据集 自定义 Agent Workflow 算法 异步强化学习 On-Policy Distillation 直接偏好优化(DPO) PPO、GRPO及相关算法 二阶矩信任策略优化 (M2PO) 近似对数概率近似 参考 检查点 指标跟踪 分配模式 LoRA 参考 Megatron Bridge 后端 树训练 RolloutWorkflow 参考 代理工作流 AI 辅助开发