Ollama 硬件选型表：显存、量化、GPU 对照指南（2026）

Q: 7B 模型到底需要多少显存？

Q4_K_M 量化下需要 4-6GB，加上 KV Cache 和运行开销，建议至少 8GB 显存的显卡。

Q: RTX 3060 12GB 和 RTX 4060 8GB 哪个更适合跑 LLM？

3060 12GB。4060 算力更强但 8GB 显存是硬伤，跑 13B 模型会爆显存。显存比算力更重要。

Q: Q4 量化会明显影响模型质量吗？

不会。Q4_K_M 质量损失只有 1-3%，大多数场景感觉不出来。除非做模型评测，否则用 Q4 就够了。

Q: AMD 显卡能跑 Ollama 吗？

可以。Linux 上用 ROCm 较稳定，Windows 上建议用 Vulkan（设置 OLLAMA_VULKAN=1）。

Q: Mac 用户如何获得最佳性能？

在 Apple Silicon 上，Ollama 会自动使用 Metal 加速；不要把 OLLAMA_ORIGINS 当成 MLX 开关，它只用于配置浏览器跨源访问白名单。想用 MLX 专属运行时，需要使用独立的 MLX 工具链。

Q: 预算有限但想跑 70B 模型怎么办？

二手双 RTX 3090 24GB × 2 = 48GB 显存，总价约 $1200，性价比最高。或选 Mac M4 Max 128GB 单机方案。

Easton editorial illustration: central VRAM capacity gauge matching 7B, 13B, and 70B model blocks to CUDA, ROCm, and Metal docks

4-6 GB

7B Q4 显存需求

入门级显卡即可运行

40-48 GB

70B Q4 显存需求

需要 48GB+ 显存或双卡

自动

Mac Metal 加速

Apple Silicon 上无需额外开关

数据来源: 实测数据与官方文档

你想在本地跑一个 7B 模型，显卡到底要多少显存？13B 呢？网上有人说 8GB 够了，有人说至少 16GB——到底听谁的？

这个问题困扰了我好几个月。去年我刚接触 Ollama 的时候，买了一块 RTX 3060 12GB，心想”12GB 显存应该够了吧”。结果跑 13B 模型的时候，直接爆显存，速度跌到 3 tokens/s，慢得像蜗牛爬网页。

后来才明白：显存边界是硬边界。你跨过去就是地狱，没跨过去就是天堂。

这篇文章把市面上主流显卡、模型参数量、量化级别全部整理成对照表。看完你就能直接判断：你的显卡能跑什么模型，什么显卡最适合你的预算。

一、核心对照表：显存需求一看就懂

先说公式。VRAM 需求大概等于：

显存需求 ≈ 参数量(B) × 量化位数 ÷ 8 + KV Cache(1-2GB)

公式看着简单，但它决定了你能跑多大的模型。举个例子，7B 模型用 Q4 量化（4-bit），显存需求大概是 7 × 4 ÷ 8 = 3.5GB，加上 KV Cache 和运行开销，实际需要 4-6GB。

这是完整的对照表，建议直接保存：

模型大小	Q4_K_M	Q5_K_M	Q8_0	FP16	推荐显卡
7B	4-6 GB	5-6 GB	7-8 GB	14 GB	RTX 3060 12GB
13B	8-10 GB	10-12 GB	13-14 GB	26 GB	RTX 4060 Ti 16GB
32B	20-24 GB	24-28 GB	32-36 GB	64 GB	RTX 4090 24GB
70B	40-48 GB	48-56 GB	70-80 GB	140 GB	双 RTX 3090 / Mac M4 Max 128GB

表格有个关键点：显存不足时，性能暴跌 5-20 倍。

我实测过 RTX 3060 12GB 跑 13B Q4_K_M。显存刚好卡在边界线上——有时候能跑，有时候爆显存。爆显存的时候，Ollama 会把部分数据转移到系统内存，速度从 45 tokens/s 跌到 2-3 tokens/s。那种感觉就像你开着跑车突然换成了三轮车。

所以买显卡的时候，宁可多买 2GB，也不要刚好卡在边界。

二、量化选择：Q4 vs Q5 vs Q8 实战建议

量化是降低显存需求的关键手段。

FP16 是原始模型精度，每个参数用 16-bit 存储。Q4 量化把它压缩到 4-bit，显存需求直接砍一半。但问题是：压缩会不会影响模型质量？

答案是：会，但影响比你想象的小。

这是实测数据：

量化级别	7B 模型显存	质量损失	适用场景
Q4_K_M	4.5 GB	1-3%	日常使用（推荐）
Q5_K_M	5.7 GB	<1%	追求精度
Q8_0	7.7 GB	<0.5%	最大质量
FP16	14 GB	0%	研究/对比基准

Q4_K_M 是默认选择。它的质量损失只有 1-3%，大多数场景根本感觉不出来。我用 Q4_K_M 的 Llama 3.1 8B 写过几篇技术文章，对比 FP16 版本，差异肉眼难辨。

Q5_K_M 适合有 16GB+ 显存的用户。如果你刚好有 RTX 4060 Ti 16GB，Q5 能给你更好的推理质量，尤其是数学推理和长文本生成。

Q8_0 接近原始质量。说实话，除非你做模型评测或者研究，否则没必要用 Q8。显存需求翻倍，收益却很有限。

还有一点：避开 Q3 和 Q2。这两个量化级别质量损失明显，模型会开始胡说八道。除非你的显存真的不够用（比如只有 4GB），否则别碰。

我的推荐：先用 Q4_K_M，如果质量不满意再换 Q5。大多数情况下 Q4 就够了。

三、三大加速技术对比：CUDA vs Metal vs ROCm

选显卡不只是看显存，还得看加速技术。

Ollama 支持四种 GPU 后端：NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。它们各有优劣，选错了平台，性能可能打折一半。

这是对比表：

加速技术	适用硬件	7B 性能	系统支持	成熟度
CUDA	NVIDIA GPU	30-80 tok/s	Win/Linux	★★★★★
Metal	Apple M1-M4	20-50 tok/s	macOS	★★★★★
ROCm	AMD RX 7000	25-60 tok/s	Linux为主	★★★☆☆
Vulkan	AMD/Intel	15-40 tok/s	跨平台	★★★☆☆

CUDA：最稳的选择

NVIDIA CUDA 是目前最成熟的方案。驱动稳定、社区支持完善、文档齐全。你装好 Ollama，CUDA 自动识别，不用折腾配置。

我的 RTX 3060 用 CUDA 跑 Llama 3.1 8B Q4，平均 45 tokens/s。推理流畅，响应快，体验很好。

CUDA 的问题只有一个：贵。NVIDIA 显卡溢价严重，RTX 4090 现在要 $1800 左右。

Metal：Mac 用户的首选

Apple Metal 在 Mac 上表现很好。M1/M2/M3/M4 都支持，而且 Mac 的统一内存架构有个优势：显存和系统内存共享，你可以跑更大的模型。

Apple Metal 加速是 Mac 用户的关键优势。Ollama 在 Apple Silicon 上会自动使用 Metal；只要统一内存足够，配置成本很低。

不要把 OLLAMA_ORIGINS 当成性能开关。它是浏览器跨源访问白名单，不会启用 MLX：

# Ollama 在 Apple Silicon 上会自动使用 Metal
# OLLAMA_ORIGINS 只用于允许额外浏览器来源访问 Ollama API
ollama serve

但有个前提：你的 Mac 至少要有 32GB 统一内存。16GB 以下跑大模型会很吃力。

ROCm：AMD 的艰难之路

AMD ROCm 在 Linux 上还行，Windows 上就比较折腾了。官方支持 Linux，Windows 版本还在实验阶段，bug 多、兼容性差。

如果你用 AMD 显卡 + Windows，建议换用 Vulkan：

OLLAMA_VULKAN=1 ollama serve

Vulkan 跨平台兼容，虽然速度比 CUDA 慢一点，但至少能稳定跑。

我的建议：如果你不想折腾，选 NVIDIA CUDA。如果你是 Mac 用户，直接用 Metal 自动加速。AMD 用户走 Linux + ROCm，或者 Windows + Vulkan。

四、GPU 型号推荐：从入门到旗舰

这是分级推荐表格，按预算划分。

入门级（预算 $200-400）

型号	显存	适合模型	性能	价格
RTX 3060 12GB	12GB	7B Q4, 13B Q4	40-60 tok/s	$250
RX 6600 8GB	8GB	7B Q4	30-45 tok/s	$200

RTX 3060 12GB 是入门首选。12GB 显存能跑 7B Q4 和 13B Q4，性价比极高。很多人问我：RTX 4060 8GB 和 RTX 3060 12GB 哪个更适合 LLM？

答案很明确：3060 12GB。4060 算力更强，但 8GB 显存是硬伤。跑 13B 模型会爆显存，体验很差。

RX 6600 适合预算有限、只跑 7B 的用户。但 AMD 在 Windows 上需要折腾 Vulkan，不如 NVIDIA 稳定。

主流级（预算 $400-800）

型号	显存	适合模型	性能	价格
RTX 4060 Ti 16GB	16GB	13B Q4/Q8, 14B Q4	50-80 tok/s	$400
RTX 4070 Super 12GB	12GB	7B Q8, 13B Q4	60-90 tok/s	$600

RTX 4060 Ti 16GB 是我最推荐的型号。16GB 显存刚好卡在甜蜜点：跑 13B Q8 够用，跑 14B Q4 也够用。价格 $400，性价比很高。

RTX 4070 Super 算力更强，但 12GB 显存限制它只能跑 13B Q4。如果你追求速度，4070 Super 是好选择。如果追求模型大小，还是选 4060 Ti 16GB。

高端级（预算 $1,200-2,000）

型号	显存	适合模型	性能	价格
RTX 4090 24GB	24GB	32B Q4, 70B offload*	80-150 tok/s	$1,800
RTX 5090 32GB	32GB	32B Q8, 70B Q4 offload*	视模型而定	$2,000
RX 7900 XTX 24GB	24GB	32B Q4	60-100 tok/s	$900

*注：24/32GB 单卡跑 70B 都需要 offload 和/或更激进量化；想更稳定地跑 70B Q4，双 RTX 3090 或 48GB+ 内存更现实。

RTX 4090 是目前的旗舰选择。24GB 显存跑 32B Q4 完全没问题，70B 需要 offload、更激进量化，或双卡配置。

RTX 5090 32GB 是 2026 年的新旗舰，官方规格为 32GB GDDR7。它比 4090 更适合单卡尝试 70B Q4，但长上下文和运行开销仍可能需要 offload，不应把它当成完整 70B Q5/Q8 方案。

RX 7900 XTX 性价比不错，24GB 显存只卖 $900。但 AMD ROCm 在 Windows 上不稳定，建议 Linux 用户考虑。

Mac 用户推荐

芯片	统一内存	适合模型	性能
M4 Pro	24GB	14B Q4	35-55 tok/s
M4 Max	128GB	70B Q4	28-30 tok/s
M3 Ultra	192GB	70B+, 多模型并行	25-35 tok/s

Mac 的统一内存架构让它能跑更大的模型。M4 Max 128GB 能完整运行 70B Q4，不需要量化妥协。

但 Mac 的缺点是速度。M4 Max 跑 70B 只有 28-30 tok/s，比 RTX 4090 慢很多。如果你追求速度，还是选 NVIDIA。如果你追求模型完整性和易用性，Mac 是好选择。

性价比之王：二手 RTX 3090 24GB

这里有个隐藏选项：二手 RTX 3090 24GB。

现在二手市场 RTX 3090 大概 $600。单张 24GB 显存适合跑 32B Q4；如果目标是 70B Q4，更现实的是双 3090，或接受较重的 offload 和更激进量化。算力虽然比 4090 弱一点，但价格砍了一半。

我有个朋友买了二手 3090，跑了一年多没出问题。前提是你得找靠谱的卖家，避开矿卡。

五、选购决策流程

看完上面四章，你可能还是有点懵。太多表格、太多型号，怎么选？

这里有个简单流程，帮你一步步做决定。

第一步：确定目标模型

你想跑什么模型？这是核心问题。

日常对话、写作辅助：7B 就够了（Llama 3.1 8B、Qwen 2.5 7B）
代码辅助、技术问答：13B-14B 更好（Qwen 2.5 14B、DeepSeek Coder）
复杂推理、长文本生成：32B-70B（DeepSeek V3、Qwen 2.5 72B）

大多数人选 7B 或 13B。70B 大模型除非你有特殊需求，否则没必要。

第二步：确定量化偏好

量化怎么选？

显存紧张：Q4_K_M（默认选择）
显存宽裕：Q5_K_M（追求精度）
研究对比：Q8_0 或 FP16

我建议先用 Q4_K_M。大多数场景质量够用，显存需求低。

第三步：查表匹配显存

回到第一章的对照表，找到你的模型 + 量化组合对应的显存需求。

比如你要跑 Llama 3.1 8B Q4_K_M，查表得到 4-6GB。那你需要至少 8GB 显存的显卡（留 2GB 安全余量）。

第四步：根据预算选显卡

把显存需求和预算结合，看第四章的分级推荐表。

预算 $200-400：RTX 3060 12GB
预算 $400-800：RTX 4060 Ti 16GB
预算 $1,200+：RTX 4090 24GB 或 RTX 5090 32GB
Mac 用户：M4 Max 128GB

第五步：确认平台支持

最后检查你的系统平台：

Windows：NVIDIA CUDA 最稳，AMD 需用 Vulkan
Linux：NVIDIA CUDA 和 AMD ROCm 都稳定
macOS：Apple Metal 自动加速，重点看统一内存容量

决策示例

举个例子，假设你想跑 Llama 3.3 70B：

目标模型：70B
量化偏好：Q4_K_M（性价比）
显存需求：查表得到 40-48GB
预算：$1,500 左右
平台：Windows

结果分析：

RTX 4090 24GB：单卡不够，需要双卡或激进量化
RTX 5090 32GB：单卡尝试 70B Q4 更合适，但长上下文仍可能需要 offload
二手双 RTX 3090 24GB × 2：$1,200，48GB 显存，性价比高
Mac M4 Max 128GB：完整运行，但速度慢

最终建议：如果预算有限，选二手双 RTX 3090。如果追求 CUDA 单卡便利，选 RTX 5090 32GB。如果你是 Mac 用户，M4 Max 128GB 是更适合完整跑 70B 的单机方案。

总结

硬件选型的核心逻辑，一句话：显存决定上限，量化决定下限。

一张对照表、一个推荐清单、三个加速技术对比——这篇帮你把纠结的问题理清楚了。

如果你还在犹豫，记住这条黄金法则：

预算有限：RTX 3060 12GB，入门首选，能跑 7B 和 13B
追求性能：RTX 4090 24GB 或 4060 Ti 16GB，甜品级到旗舰级都有
Mac 用户：M4 Max 128GB，唯一能完整跑 70B 的单机方案
性价比之王：二手 RTX 3090 24GB，单卡适合 32B；70B 更建议双卡

更多 Ollama 实战技巧，查看本系列其他文章：Ollama GPU Acceleration Guide、本地 LLM 模型选择对比。

常见问题

7B 模型到底需要多少显存？

Q4_K_M 量化下需要 4-6GB，加上 KV Cache 和运行开销，建议至少 8GB 显存的显卡。

RTX 3060 12GB 和 RTX 4060 8GB 哪个更适合跑 LLM？

3060 12GB。4060 算力更强但 8GB 显存是硬伤，跑 13B 模型会爆显存。显存比算力更重要。

Q4 量化会明显影响模型质量吗？

不会。Q4_K_M 质量损失只有 1-3%，大多数场景感觉不出来。除非做模型评测，否则用 Q4 就够了。

AMD 显卡能跑 Ollama 吗？

可以。Linux 上用 ROCm 较稳定，Windows 上建议用 Vulkan（设置 OLLAMA_VULKAN=1）。

Mac 用户如何获得最佳性能？

在 Apple Silicon 上，Ollama 会自动使用 Metal 加速；不要把 OLLAMA_ORIGINS 当成 MLX 开关，它只用于配置浏览器跨源访问白名单。想用 MLX 专属运行时，需要使用独立的 MLX 工具链。

预算有限但想跑 70B 模型怎么办？

二手双 RTX 3090 24GB × 2 = 48GB 显存，总价约 $1200，性价比最高。或选 Mac M4 Max 128GB 单机方案。

11 分钟阅读 · 发布于: 2026年5月28日 · 修改于: 2026年7月14日

Easton

AI与智能

Ollama 硬件选型表：显存、量化、GPU 对照指南（2026）

一、核心对照表：显存需求一看就懂

二、量化选择：Q4 vs Q5 vs Q8 实战建议

三、三大加速技术对比：CUDA vs Metal vs ROCm

CUDA：最稳的选择

Metal：Mac 用户的首选

ROCm：AMD 的艰难之路

四、GPU 型号推荐：从入门到旗舰

入门级（预算 $200-400）

主流级（预算 $400-800）

高端级（预算 $1,200-2,000）

Mac 用户推荐

性价比之王：二手 RTX 3090 24GB

五、选购决策流程

第一步：确定目标模型

第二步：确定量化偏好

第三步：查表匹配显存

第四步：根据预算选显卡

第五步：确认平台支持

决策示例

总结

常见问题

Ollama 本地 LLM 实战指南

Llama 70B 本地运行：5700XT、Mac M4、CUDA 三方案对比与选型指南

Ollama GPU 加速配置：CUDA、ROCm 与 Metal 全平台实战指南

Ollama 入门：本地运行大语言模型的第一步

Ollama 模型管理：下载、切换、删除与版本控制完全指南

想持续收到这个主题的更新？

评论

一、核心对照表：显存需求一看就懂

二、量化选择：Q4 vs Q5 vs Q8 实战建议

三、三大加速技术对比：CUDA vs Metal vs ROCm

CUDA：最稳的选择

Metal：Mac 用户的首选

ROCm：AMD 的艰难之路

四、GPU 型号推荐：从入门到旗舰

入门级（预算 $200-400）

主流级（预算 $400-800）

高端级（预算 $1,200-2,000）

Mac 用户推荐

性价比之王：二手 RTX 3090 24GB

五、选购决策流程

第一步：确定目标模型

第二步：确定量化偏好

第三步：查表匹配显存

第四步：根据预算选显卡

第五步：确认平台支持

决策示例

总结

常见问题

Ollama 本地 LLM 实战指南

Llama 70B 本地运行：5700XT、Mac M4、CUDA 三方案对比与选型指南

Ollama GPU 加速配置：CUDA、ROCm 与 Metal 全平台实战指南

相关文章

Ollama 入门：本地运行大语言模型的第一步

Ollama 模型管理：下载、切换、删除与版本控制完全指南

想持续收到这个主题的更新？

评论