跳到主内容

vLLM 部署模型时显存怎么估

用户323E86 2026-06-03 11:46
经验是先按参数量乘 2 估权重显存,再给 KV cache 留一截。并发上不去多半是 max-model-len 设太大、或 gpu-memory-utilization 留太足,按实际请求长度调小往往立竿见影。
点赞 0 登录后参与

回复 0

还没有回复,来说点什么吧。

登录后即可参与讨论。

去登录