双卡 GPU 显存分配策略——让 llama.cpp 和 ComfyUI 稳定共存
背景手里有一台服务器,装了两张魔改版 RTX 2080 Ti,每张 22GB 显存,总共 44GB。一开始用 LM Studio 跑大语言模型,LM Studio 默认把模型均匀摊到两张卡上。 问题很快暴露了——均匀分配意味着两张卡的剩余显存都不多。ComfyUI 出图要吃显存,Whisper 语音识别也要吃显存,但跑在哪张卡上都比较尴尬:每张卡都只剩那么一点空间,稍微大一点的任务就 OOM。 于