容器里 CUDA OOM 的几个常见原因 用 用户323E86 2026-06-03 11:46 除了 batch 太大,常被忽略的是中间张量没释放、以及多进程各占了一份显存。先用 nvidia-smi 看是谁在占,再决定降 batch 还是改用梯度累积。 点赞 0 登录后参与