跳到主内容

容器里 CUDA OOM 的几个常见原因

用户323E86 2026-06-03 11:46
除了 batch 太大,常被忽略的是中间张量没释放、以及多进程各占了一份显存。先用 nvidia-smi 看是谁在占,再决定降 batch 还是改用梯度累积。
点赞 0 登录后参与

回复 0

还没有回复,来说点什么吧。

登录后即可参与讨论。

去登录