vLLM 部署模型时显存怎么估 用 用户323E86 2026-06-03 11:46 经验是先按参数量乘 2 估权重显存,再给 KV cache 留一截。并发上不去多半是 max-model-len 设太大、或 gpu-memory-utilization 留太足,按实际请求长度调小往往立竿见影。 点赞 0 登录后参与