且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

在CUDA错误后重置GPU和驱动程序

更新时间:2022-12-01 13:58:02

如果您在Linux上使用特斯拉硬件,并且可以运行nvidia-smi,则可以使用

If you are on Tesla hardware on Linux and can run nvidia-smi, then you can reset the GPU using

nvidia-smi -r

nvidia-smi --gpu-reset

以下是此开关的 man 输出:


重置GPU状态。可以用来清除双位ECC错误或
恢复挂起的GPU。需要-i切换到目标特定设备。
仅适用于Linux。

Resets GPU state. Can be used to clear double bit ECC errors or recover hung GPU. Requires -i switch to target specific device. Available on Linux only.

否则...

真正重置硬件的方法是重新启动。

The way to truly reset the hardware is to reboot.

你所描述的不应该发生。我建议使用不同的硬件测试,让我们知道是否仍然发生。

What you describe shouldn't happen. I recommend testing with different hardware and let us know if it still occurs.