Skip to main content
Back to top
Ctrl
+
K
Search
Ctrl
+
K
概述
版本历史
关键里程碑
教程
安装指南
安装指南(昇腾 NPU)
快速入门
智能体强化学习
在线 RL 训练
评估
大型 MoE 模型微调
Archon:PyTorch 原生训练引擎
配置参考
代码详解
在 GSM8K 数据集上运行 GRPO
最佳实践
诊断 RL 性能问题
编写 Agent Workflow
调试指南
处理 OOM 问题
性能分析
定制指南
数据集
自定义 Agent Workflow
算法
异步强化学习
On-Policy Distillation
直接偏好优化(DPO)
PPO、GRPO及相关算法
二阶矩信任策略优化 (M2PO)
近似对数概率近似
参考
检查点
指标跟踪
分配模式
LoRA 参考
Megatron Bridge 后端
树训练
RolloutWorkflow 参考
代理工作流
AI 辅助开发
Repository
Open issue
Index