Skip to main content
Ctrl+K
AReaL Documentation - Home AReaL Documentation - Home
  • 概述

版本历史

  • 关键里程碑

教程

  • 安装指南
  • 安装指南(昇腾 NPU)
  • 快速入门
  • 智能体强化学习
  • 在线 RL 训练
  • 评估
  • 大型 MoE 模型微调
  • Archon:PyTorch 原生训练引擎
  • 配置参考

代码详解

  • 在 GSM8K 数据集上运行 GRPO

最佳实践

  • 诊断 RL 性能问题
  • 编写 Agent Workflow
  • 调试指南
  • 处理 OOM 问题
  • 性能分析

定制指南

  • 数据集
  • 自定义 Agent Workflow

算法

  • 异步强化学习
  • On-Policy Distillation
  • 直接偏好优化(DPO)
  • PPO、GRPO及相关算法
  • 二阶矩信任策略优化 (M2PO)
  • 近似对数概率近似

参考

  • 检查点
  • 指标跟踪
  • 分配模式
  • LoRA 参考
  • Megatron Bridge 后端
  • 树训练
  • RolloutWorkflow 参考
  • 代理工作流
  • AI 辅助开发
  • Repository
  • Open issue

Index

By AReaL Team

© Copyright 2026.