Ollama 硬件选型表:显存、量化、GPU 对照指南(2026)
Ollama 硬件选型表:显存、量化、GPU 对照指南(2026)
你想在本地跑一个 7B 模型,显卡到底要多少显存?13B 呢?网上有人说 8GB 够了,有人说至少 16GB——到底听谁的?
这个问题困扰了我好几个月。去年我刚接触 Ollama 的时候,买了一块 RTX 3060 12GB,心想”12GB 显存应该够了吧”。结果跑 13B 模型的时候,直接爆显存,速度跌到 3 tokens/s,慢得像蜗牛爬网页。
后来才明白:显存边界是硬边界。你跨过去就是地狱,没跨过去就是天堂。
这篇文章把市面上主流显卡、模型参数量、量化级别全部整理成对照表。看完你就能直接判断:你的显卡能跑什么模型,什么显卡最适合你的预算。
一、核心对照表:显存需求一看就懂
先说公式。VRAM 需求大概等于:
显存需求 ≈ 参数量(B) × 量化位数 ÷ 8 + KV Cache(1-2GB)
公式看着简单,但它决定了你能跑多大的模型。举个例子,7B 模型用 Q4 量化(4-bit),显存需求大概是 7 × 4 ÷ 8 = 3.5GB,加上 KV Cache 和运行开销,实际需要 4-6GB。
这是完整的对照表,建议直接保存:
| 模型大小 | Q4_K_M | Q5_K_M | Q8_0 | FP16 | 推荐显卡 |
|---|---|---|---|---|---|
| 7B | 4-6 GB | 5-6 GB | 7-8 GB | 14 GB | RTX 3060 12GB |
| 13B | 8-10 GB | 10-12 GB | 13-14 GB | 26 GB | RTX 4060 Ti 16GB |
| 32B | 20-24 GB | 24-28 GB | 32-36 GB | 64 GB | RTX 4090 24GB |
| 70B | 40-48 GB | 48-56 GB | 70-80 GB | 140 GB | RTX 5090 32GB |
表格有个关键点:显存不足时,性能暴跌 5-20 倍。
我实测过 RTX 3060 12GB 跑 13B Q4_K_M。显存刚好卡在边界线上——有时候能跑,有时候爆显存。爆显存的时候,Ollama 会把部分数据转移到系统内存,速度从 45 tokens/s 跌到 2-3 tokens/s。那种感觉就像你开着跑车突然换成了三轮车。
所以买显卡的时候,宁可多买 2GB,也不要刚好卡在边界。
二、量化选择:Q4 vs Q5 vs Q8 实战建议
量化是降低显存需求的关键手段。
FP16 是原始模型精度,每个参数用 16-bit 存储。Q4 量化把它压缩到 4-bit,显存需求直接砍一半。但问题是:压缩会不会影响模型质量?
答案是:会,但影响比你想象的小。
这是实测数据:
| 量化级别 | 7B 模型显存 | 质量损失 | 适用场景 |
|---|---|---|---|
| Q4_K_M | 4.5 GB | 1-3% | 日常使用(推荐) |
| Q5_K_M | 5.7 GB | <1% | 追求精度 |
| Q8_0 | 7.7 GB | <0.5% | 最大质量 |
| FP16 | 14 GB | 0% | 研究/对比基准 |
Q4_K_M 是默认选择。它的质量损失只有 1-3%,大多数场景根本感觉不出来。我用 Q4_K_M 的 Llama 3.1 8B 写过几篇技术文章,对比 FP16 版本,差异肉眼难辨。
Q5_K_M 适合有 16GB+ 显存的用户。如果你刚好有 RTX 4060 Ti 16GB,Q5 能给你更好的推理质量,尤其是数学推理和长文本生成。
Q8_0 接近原始质量。说实话,除非你做模型评测或者研究,否则没必要用 Q8。显存需求翻倍,收益却很有限。
还有一点:避开 Q3 和 Q2。这两个量化级别质量损失明显,模型会开始胡说八道。除非你的显存真的不够用(比如只有 4GB),否则别碰。
我的推荐:先用 Q4_K_M,如果质量不满意再换 Q5。大多数情况下 Q4 就够了。
三、三大加速技术对比:CUDA vs Metal vs ROCm
选显卡不只是看显存,还得看加速技术。
Ollama 支持四种 GPU 后端:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。它们各有优劣,选错了平台,性能可能打折一半。
这是对比表:
| 加速技术 | 适用硬件 | 7B 性能 | 系统支持 | 成熟度 |
|---|---|---|---|---|
| CUDA | NVIDIA GPU | 30-80 tok/s | Win/Linux | ★★★★★ |
| Metal | Apple M1-M4 | 20-50 tok/s | macOS | ★★★★★ |
| ROCm | AMD RX 7000 | 25-60 tok/s | Linux为主 | ★★★☆☆ |
| Vulkan | AMD/Intel | 15-40 tok/s | 跨平台 | ★★★☆☆ |
CUDA:最稳的选择
NVIDIA CUDA 是目前最成熟的方案。驱动稳定、社区支持完善、文档齐全。你装好 Ollama,CUDA 自动识别,不用折腾配置。
我的 RTX 3060 用 CUDA 跑 Llama 3.1 8B Q4,平均 45 tokens/s。推理流畅,响应快,体验很好。
CUDA 的问题只有一个:贵。NVIDIA 显卡溢价严重,RTX 4090 现在要 $1800 左右。
Metal:Mac 用户的首选
Apple Metal 在 Mac 上表现很好。M1/M2/M3/M4 都支持,而且 Mac 的统一内存架构有个优势:显存和系统内存共享,你可以跑更大的模型。
MLX 后端是关键。启用 MLX 后,速度能提升近一倍。实测数据:7B 模型从 57.8 tok/s 提升到 111.4 tok/s,涨幅 93%。
启用 MLX 的方法:
# 安装 MLX 版本
OLLAMA_ORIGINS=MLX ollama serve
但有个前提:你的 Mac 至少要有 32GB 统一内存。16GB 以下跑大模型会很吃力。
ROCm:AMD 的艰难之路
AMD ROCm 在 Linux 上还行,Windows 上就比较折腾了。官方支持 Linux,Windows 版本还在实验阶段,bug 多、兼容性差。
如果你用 AMD 显卡 + Windows,建议换用 Vulkan:
OLLAMA_VULKAN=1 ollama serve
Vulkan 跨平台兼容,虽然速度比 CUDA 慢一点,但至少能稳定跑。
我的建议:如果你不想折腾,选 NVIDIA CUDA。如果你是 Mac 用户,用 Metal + MLX。AMD 用户走 Linux + ROCm,或者 Windows + Vulkan。
四、GPU 型号推荐:从入门到旗舰
这是分级推荐表格,按预算划分。
入门级(预算 $200-400)
| 型号 | 显存 | 适合模型 | 性能 | 价格 |
|---|---|---|---|---|
| RTX 3060 12GB | 12GB | 7B Q4, 13B Q4 | 40-60 tok/s | $250 |
| RX 6600 8GB | 8GB | 7B Q4 | 30-45 tok/s | $200 |
RTX 3060 12GB 是入门首选。12GB 显存能跑 7B Q4 和 13B Q4,性价比极高。很多人问我:RTX 4060 8GB 和 RTX 3060 12GB 哪个更适合 LLM?
答案很明确:3060 12GB。4060 算力更强,但 8GB 显存是硬伤。跑 13B 模型会爆显存,体验很差。
RX 6600 适合预算有限、只跑 7B 的用户。但 AMD 在 Windows 上需要折腾 Vulkan,不如 NVIDIA 稳定。
主流级(预算 $400-800)
| 型号 | 显存 | 适合模型 | 性能 | 价格 |
|---|---|---|---|---|
| RTX 4060 Ti 16GB | 16GB | 13B Q4/Q8, 14B Q4 | 50-80 tok/s | $400 |
| RTX 4070 Super 12GB | 12GB | 7B Q8, 13B Q4 | 60-90 tok/s | $600 |
RTX 4060 Ti 16GB 是我最推荐的型号。16GB 显存刚好卡在甜蜜点:跑 13B Q8 够用,跑 14B Q4 也够用。价格 $400,性价比很高。
RTX 4070 Super 算力更强,但 12GB 显存限制它只能跑 13B Q4。如果你追求速度,4070 Super 是好选择。如果追求模型大小,还是选 4060 Ti 16GB。
高端级(预算 $1,200-2,000)
| 型号 | 显存 | 适合模型 | 性能 | 价格 |
|---|---|---|---|---|
| RTX 4090 24GB | 24GB | 32B Q4, 70B Q4* | 80-150 tok/s | $1,800 |
| RTX 5090 32GB | 32GB | 70B Q5/Q8 | 150-200 tok/s | $2,000 |
| RX 7900 XTX 24GB | 24GB | 32B Q4 | 60-100 tok/s | $900 |
*注:RTX 4090 单卡跑 70B Q4 需要量化更激进(Q4_K_S),或使用双卡配置。
RTX 4090 是目前的旗舰选择。24GB 显存跑 32B Q4 完全没问题,70B 需要更激进的量化或者双卡配置。
RTX 5090 32GB 是 2026 年的新旗舰,32GB 显存刚好能跑 70B Q5。价格 $2,000,但如果你经常跑大模型,值得投资。
RX 7900 XTX 性价比不错,24GB 显存只卖 $900。但 AMD ROCm 在 Windows 上不稳定,建议 Linux 用户考虑。
Mac 用户推荐
| 芯片 | 统一内存 | 适合模型 | 性能 |
|---|---|---|---|
| M4 Pro | 24GB | 14B Q4 | 35-55 tok/s |
| M4 Max | 128GB | 70B Q4 | 28-30 tok/s |
| M3 Ultra | 192GB | 70B+, 多模型并行 | 25-35 tok/s |
Mac 的统一内存架构让它能跑更大的模型。M4 Max 128GB 能完整运行 70B Q4,不需要量化妥协。
但 Mac 的缺点是速度。M4 Max 跑 70B 只有 28-30 tok/s,比 RTX 4090 慢很多。如果你追求速度,还是选 NVIDIA。如果你追求模型完整性和易用性,Mac 是好选择。
性价比之王:二手 RTX 3090 24GB
这里有个隐藏选项:二手 RTX 3090 24GB。
现在二手市场 RTX 3090 大概 $600。24GB 显存,能跑 32B Q4 和 70B Q4(激进量化)。算力虽然比 4090 弱一点,但价格砍了一半。
我有个朋友买了二手 3090,跑了一年多没出问题。前提是你得找靠谱的卖家,避开矿卡。
五、选购决策流程
看完上面四章,你可能还是有点懵。太多表格、太多型号,怎么选?
这里有个简单流程,帮你一步步做决定。
第一步:确定目标模型
你想跑什么模型?这是核心问题。
- 日常对话、写作辅助:7B 就够了(Llama 3.1 8B、Qwen 2.5 7B)
- 代码辅助、技术问答:13B-14B 更好(Qwen 2.5 14B、DeepSeek Coder)
- 复杂推理、长文本生成:32B-70B(DeepSeek V3、Qwen 2.5 72B)
大多数人选 7B 或 13B。70B 大模型除非你有特殊需求,否则没必要。
第二步:确定量化偏好
量化怎么选?
- 显存紧张:Q4_K_M(默认选择)
- 显存宽裕:Q5_K_M(追求精度)
- 研究对比:Q8_0 或 FP16
我建议先用 Q4_K_M。大多数场景质量够用,显存需求低。
第三步:查表匹配显存
回到第一章的对照表,找到你的模型 + 量化组合对应的显存需求。
比如你要跑 Llama 3.1 8B Q4_K_M,查表得到 4-6GB。那你需要至少 8GB 显存的显卡(留 2GB 安全余量)。
第四步:根据预算选显卡
把显存需求和预算结合,看第四章的分级推荐表。
- 预算 $200-400:RTX 3060 12GB
- 预算 $400-800:RTX 4060 Ti 16GB
- 预算 $1,200+:RTX 4090 24GB 或 RTX 5090 32GB
- Mac 用户:M4 Max 128GB
第五步:确认平台支持
最后检查你的系统平台:
- Windows:NVIDIA CUDA 最稳,AMD 需用 Vulkan
- Linux:NVIDIA CUDA 和 AMD ROCm 都稳定
- macOS:Apple Metal + MLX,速度提升 93%
决策示例
举个例子,假设你想跑 Llama 3.3 70B:
- 目标模型:70B
- 量化偏好:Q4_K_M(性价比)
- 显存需求:查表得到 40-48GB
- 预算:$1,500 左右
- 平台:Windows
结果分析:
- RTX 4090 24GB:单卡不够,需要双卡或激进量化
- RTX 5090 32GB:单卡勉强,Q4_K_S 可跑
- 二手双 RTX 3090 24GB × 2:$1,200,48GB 显存,性价比高
- Mac M4 Max 128GB:完整运行,但速度慢
最终建议:如果预算有限,选二手双 RTX 3090。如果追求稳定,选 RTX 5090 32GB。如果你是 Mac 用户,M4 Max 128GB 是唯一能完整跑 70B 的单机方案。
总结
硬件选型的核心逻辑,一句话:显存决定上限,量化决定下限。
一张对照表、一个推荐清单、三个加速技术对比——这篇帮你把纠结的问题理清楚了。
如果你还在犹豫,记住这条黄金法则:
- 预算有限:RTX 3060 12GB,入门首选,能跑 7B 和 13B
- 追求性能:RTX 4090 24GB 或 4060 Ti 16GB,甜品级到旗舰级都有
- Mac 用户:M4 Max 128GB,唯一能完整跑 70B 的单机方案
- 性价比之王:二手 RTX 3090 24GB,$600 能跑 32B 和 70B
更多 Ollama 实战技巧,查看本系列其他文章:Ollama GPU Acceleration Guide、本地 LLM 模型选择对比。
常见问题
7B 模型到底需要多少显存?
RTX 3060 12GB 和 RTX 4060 8GB 哪个更适合跑 LLM?
Q4 量化会明显影响模型质量吗?
AMD 显卡能跑 Ollama 吗?
Mac 用户如何获得最佳性能?
预算有限但想跑 70B 模型怎么办?
10 分钟阅读 · 发布于: 2026年5月28日 · 修改于: 2026年5月31日
评论
使用 GitHub 账号登录后即可评论