Skip to main content

Ctrl+K

概述

版本历史

关键里程碑

教程

安装指南
安装指南（昇腾 NPU）
快速入门
智能体强化学习
在线 RL 训练
评估
大型 MoE 模型微调
Archon：PyTorch 原生训练引擎
配置参考

代码详解

在 GSM8K 数据集上运行 GRPO

最佳实践

诊断 RL 性能问题
编写 Agent Workflow
调试指南
处理 OOM 问题
性能分析

定制指南

数据集
自定义 Agent Workflow

算法

异步强化学习
On-Policy Distillation
直接偏好优化（DPO）
PPO、GRPO及相关算法
二阶矩信任策略优化 (M2PO)
近似对数概率近似

参考

检查点
指标跟踪
分配模式
LoRA 参考
Megatron Bridge 后端
树训练
RolloutWorkflow 参考
代理工作流
AI 辅助开发

Repository
Open issue

Search

Ctrl+K

By AReaL Team

© Copyright 2026.