vLLM 部署模型时显存怎么估

用用户323E86 2026-06-03 11:46

经验是先按参数量乘 2 估权重显存，再给 KV cache 留一截。并发上不去多半是 max-model-len 设太大、或 gpu-memory-utilization 留太足，按实际请求长度调小往往立竿见影。

还没有回复，来说点什么吧。

登录后即可参与讨论。

回复 0