如何在Python中使用ray.get_gpu_ids时解决"RuntimeError: No GPUs found"错误？

更新时间 2025-11-10

一、问题现象与背景

当开发者调用ray.get_gpu_ids()方法时，可能会遇到如下报错：

RuntimeError: No GPUs found.  
Check your CUDA_VISIBLE_DEVICES configuration.

该错误表明Ray运行时无法检测到可用的GPU资源，通常发生在以下场景：

通过分析Ray源码发现，get_gpu_ids()依赖于底层CUDA环境实现：

失败的关键路径包括：

执行以下诊断命令：

nvidia-smi  
nvcc --version  
ls -la /dev/nvidia*

预期应看到：

在ray.init()中显式指定资源：

ray.init(  
    num_gpus=1,  
    resources={'GPU': 1}  
)

同时建议设置环境变量：

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

对于Docker部署，必须添加以下参数：

docker run --gpus all \  
           --ipc=host \  
           -e NVIDIA_DRIVER_CAPABILITIES=compute,utility

当基础方案无效时，可采用：

典型成功案例的组件版本组合：