安装指南(昇腾 NPU)#

前置要求#

硬件要求#

以下硬件配置已经过充分测试:

  • NPU:每节点 16 个 NPU

  • CPU:每节点 64 核

  • 内存:每节点 1TB

  • 网络:RoCE 3.2 Tbps

  • 存储

    • 1TB 本地存储用于单节点实验

    • 10TB 共享存储(NAS)用于分布式实验

软件要求#

组件

版本

操作系统

Ubuntu、EulerOS 或满足以下要求的任何系统

昇腾 HDK

25.2.1

CANN

8.5.0

Git LFS

下载模型、数据集和 AReaL 代码所需。请参阅安装指南

Docker

27.2.0

AReaL 镜像 (A2)

swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v1.0.1-a2(详见下文)

AReaL 镜像 (A3)

swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v1.0.1-a3(详见下文)

注意:本教程不涵盖 CANN 的安装或共享存储挂载,因为这些取决于您特定的节点配置和系统版本。请独立完成这些安装。您可以从 vLLM-Ascend 社区查看更多详情此页面

运行环境#

我们建议使用 Docker 和我们提供的 NPU 镜像,其中包含 CANN 以及预构建的 vLLM 和 vLLM-Ascend。

创建容器#

WORK_DIR=<your_workspace>
CONTAINER_WORK_DIR=<your_container_workspace>

# 根据您的硬件类型使用 A2/A3 镜像
# IMAGE=swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v1.0.1-a2
IMAGE=swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v1.0.1-a3
CONTAINER_NAME=areal_npu

cd ${WORK_DIR}

docker pull ${IMAGE}

docker run -itd --cap-add=SYS_PTRACE --net=host \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci8 \
--device=/dev/davinci9 \
--device=/dev/davinci10 \
--device=/dev/davinci11 \
--device=/dev/davinci12 \
--device=/dev/davinci13 \
--device=/dev/davinci14 \
--device=/dev/davinci15 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
--shm-size=1200g \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /sys/fs/cgroup:/sys/fs/cgroup:ro \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /var/log/npu/:/usr/slog \
-v ${WORK_DIR}:${CONTAINER_WORK_DIR} \
--privileged=true \
--name ${CONTAINER_NAME} \
${IMAGE}  \
/bin/bash

对于多节点训练:请确保在每个节点上挂载共享存储路径(如果使用 Docker,也要挂载到容器中)。此路径将用于保存检查点和日志。

自定义环境安装#

该镜像在 /AReaL 目录下包含一份内置的 AReaL 源代码副本,但该副本可能已过时。建议删除该目录,并从源码重新安装 AReaL。

rm -rf /AReaL

git clone https://github.com/inclusionAI/AReaL
cd AReaL

# 切换到 ascend 分支
git checkout ascend-v1.0.1

# 安装 AReaL
pip install -e . --no-deps

(可选)启动 Ray 集群用于分布式训练#

在第一个节点上,启动 Ray Head:

ray start --head

在所有其他节点上,启动 Ray Worker:

# 替换为第一个节点的实际 IP 地址
RAY_HEAD_IP=xxx.xxx.xxx.xxx
ray start --address $RAY_HEAD_IP

运行 ray status 时应该可以看到 Ray 资源状态显示。

正确设置 AReaL 训练命令中的 n_nodes 参数,然后 AReaL 的训练脚本将自动检测资源并为集群分配 worker。

下一步#

查看快速入门部分来启动您的第一个 AReaL 任务。要在 NPU 上运行,请进行以下更改:

  • 训练脚本: 使用 examples/math/gsm8k_rl.py

  • 配置文件: 使用提供的 NPU 配置文件 examples/math/gsm8k_grpo_npu.yaml

按照那里的说明进行操作。如果要使用 Ray 运行多节点训练,请在启动任务之前确保您的 Ray 集群已按上述说明启动。

注意:目前,昇腾 NPU 上仅支持 fsdp 训练引擎和 vllm 推理引擎(通过 vLLM-Ascend 插件)。megatron 引擎(通过 MindSpeed)目前仍处于实验阶段。