LoRA 参考

LoRA 参考#

LoRA 是一种参数高效的微调技术，会在预训练权重中注入可训练的低秩矩阵，通常作用在线性层附近。与全参数微调相比，LoRA 可以显著降低显存占用和计算开销，从而让大模型的 RL 微调在硬件资源有限的条件下也更具可行性。

在 AReaL 中，LoRA 尤其适用于以下场景：

本文档说明如何在 RL 训练中启用 LoRA，并配置相关参数。

AReaL 当前的 LoRA 支持矩阵如下：

示例脚本：

Engine	Example script
FSDP2	`examples/math/gsm8k_grpo_lora.yaml`
Megatron	`examples/math/gsm8k_grpo_megatron_lora.yaml`
Megatron MoE	`examples/math/gsm8k_grpo_megatron_lora_moe.yaml`

对于 Megatron + vLLM，AReaL 现在支持：

参数	作用	常见取值
`use_lora`	是否启用 LoRA 微调模式。	`true` / `false`
`lora_rank` (`r`)	低秩适配器的秩。`r` 越大，表达能力越强，但显存与计算开销更高。	`8`, `16`, `32`, `64`
`lora_alpha`	LoRA 缩放系数。通常可理解为有效缩放与 `alpha / r` 成正比。	`16`, `32`, `64`
`target_modules`	指定注入 LoRA 的目标子模块。这是最关键、且与模型结构强相关的配置。	例如 [`all-linear`]
`peft_type`	PEFT 方法类型。在 AReaL 配置中为 LoRA。	`lora`