Skip to main content

Ctrl+K

概述

版本历史

关键里程碑

教程

安装指南
安装指南（昇腾 NPU）
快速入门
智能体强化学习
在线 RL 训练
评估
大型 MoE 模型微调
Archon：PyTorch 原生训练引擎
配置参考

代码详解

在 GSM8K 数据集上运行 GRPO

最佳实践

诊断 RL 性能问题
编写 Agent Workflow
调试指南
处理 OOM 问题
性能分析

定制指南

数据集
自定义 Agent Workflow

算法

异步强化学习
On-Policy Distillation
直接偏好优化（DPO）
PPO、GRPO及相关算法
二阶矩信任策略优化 (M2PO)
近似对数概率近似

参考

检查点
指标跟踪
分配模式
LoRA 参考
Megatron Bridge 后端
树训练
RolloutWorkflow 参考
代理工作流
AI 辅助开发

Repository
Open issue

.md

概述

Contents

欢迎阅读 AReaL 文档！

概述#

欢迎阅读 AReaL 文档！#

版本历史

关键里程碑

教程

安装指南
安装指南（昇腾 NPU）
快速入门
智能体强化学习
在线 RL 训练
评估
大型 MoE 模型微调
Archon：PyTorch 原生训练引擎
配置参考

代码详解

在 GSM8K 数据集上运行 GRPO

最佳实践

诊断 RL 性能问题
编写 Agent Workflow
调试指南
处理 OOM 问题
性能分析

定制指南

数据集
自定义 Agent Workflow

算法

异步强化学习
On-Policy Distillation
直接偏好优化（DPO）
PPO、GRPO及相关算法
二阶矩信任策略优化 (M2PO)
近似对数概率近似

参考

检查点
指标跟踪
分配模式
LoRA 参考
Megatron Bridge 后端
树训练
RolloutWorkflow 参考
代理工作流
AI 辅助开发

next

关键里程碑

Contents

欢迎阅读 AReaL 文档！

By AReaL Team

© Copyright 2026.