Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)
Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)
ローカルで 7B モデルを動かすには、GPU にどれくらいの VRAM が必要でしょうか。13B なら?ネット上では「8GB で足りる」という声もあれば「最低 16GB」という意見も——結局どれを信じればいいのか。
この疑問に何ヶ月も悩まされました。Ollama を始めた去年、RTX 3060 12GB を買ったときは「12GB あれば十分でしょ」と思っていました。ところが 13B モデルを走らせると VRAM が溢れ、速度は 3 tokens/s まで落ち込み——まるで Web ページを三輪車で読んでいるような感覚。
後から分かったのは、VRAM の境界は物理的な壁だということ。越えれば地獄、越えなければ快適。
この記事では、市場の主流 GPU・モデルパラメータ数・量子化レベルをすべて対照表にまとめました。読み終われば、あなたの GPU でどのモデルが動くか、予算に合う GPU はどれか、すぐに判断できます。
一、核心対照表:VRAM 要件が一目で分かる
まず公式から。VRAM 要件の目安は次のとおりです。
VRAM 要件 ≈ パラメータ数(B) × 量子化ビット数 ÷ 8 + KV Cache(1〜2GB)
式はシンプルですが、実行できるモデルサイズを決める重要な指標。例えば 7B モデルを Q4 量子化(4-bit)で動かすと、7 × 4 ÷ 8 = 3.5GB。KV Cache と実行オーバーヘッドを足すと、実際には 4〜6GB 必要です。
完全な対照表はこちら。保存しておくと便利です。
| モデルサイズ | Q4_K_M | Q5_K_M | Q8_0 | FP16 | 推奨 GPU |
|---|---|---|---|---|---|
| 7B | 4-6 GB | 5-6 GB | 7-8 GB | 14 GB | RTX 3060 12GB |
| 13B | 8-10 GB | 10-12 GB | 13-14 GB | 26 GB | RTX 4060 Ti 16GB |
| 32B | 20-24 GB | 24-28 GB | 32-36 GB | 64 GB | RTX 4090 24GB |
| 70B | 40-48 GB | 48-56 GB | 70-80 GB | 140 GB | RTX 5090 32GB |
表の重要ポイント:VRAM が足りないと、性能は 5〜20 倍も落ちる。
RTX 3060 12GB で 13B Q4_K_M を実測したことがあります。VRAM が境界線ギリギリ——動くときもあれば溢れるときも。溢れた瞬間、Ollama は一部データをシステムメモリに退避し、速度は 45 tokens/s から 2〜3 tokens/s へ。スポーツカーから三輪車に乗り換えたような感覚です。
GPU を選ぶときは、境界ギリギリより 2GB 多めを選びましょう。
二、量子化の選び方:Q4 vs Q5 vs Q8 実践アドバイス
量子化は VRAM 要件を下げる鍵です。
FP16 は元のモデル精度で、各パラメータを 16-bit で保持。Q4 量子化は 4-bit に圧縮し、VRAM 要件を半分近くに削減できます。ただし、圧縮で品質は落ちるのか?
答えは「はい、ただし想像より小さい」です。
実測データは次のとおり。
| 量子化レベル | 7B モデル VRAM | 品質低下 | 適用シーン |
|---|---|---|---|
| Q4_K_M | 4.5 GB | 1-3% | 日常使用(推奨) |
| Q5_K_M | 5.7 GB | <1% | 精度重視 |
| Q8_0 | 7.7 GB | <0.5% | 最高品質 |
| FP16 | 14 GB | 0% | 研究・比較ベンチマーク |
Q4_K_M がデフォルトの選択肢。品質低下は 1〜3% で、ほとんどのシーンでは違いを感じにくい。Q4_K_M の Llama 3.1 8B で技術記事を書いたことがありますが、FP16 版と比べて肉眼では判別困難でした。
Q5_K_M は 16GB 以上 VRAM のユーザー向け。RTX 4060 Ti 16GB をお持ちなら、Q5 で推論品質が向上し、特に数学推論や長文生成で効果が出ます。
Q8_0 は元品質に近い。正直、モデルベンチマークや研究用途でなければ Q8 は不要。VRAM 要件は 2 倍になるのに、得られる改善は限定的です。
もう一点:Q3 と Q2 は避けましょう。品質低下が目に見えて、モデルが的外れな回答を始めます。VRAM が本当に 4GB しかない場合を除き、触らない方がいい。
おすすめ:まず Q4_K_M を試し、品質に不満があれば Q5 へ。大半のケースで Q4 で十分です。
三、3 大アクセラレーション技術比較:CUDA vs Metal vs ROCm
GPU 選びは VRAM だけではありません。アクセラレーション技術も重要。
Ollama は 4 種類の GPU バックエンドをサポート:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。それぞれ長所・短所があり、プラットフォームを間違えると性能が半分になることも。
比較表はこちら。
| アクセラレーション | 対応ハードウェア | 7B 性能 | OS サポート | 成熟度 |
|---|---|---|---|---|
| CUDA | NVIDIA GPU | 30-80 tok/s | Win/Linux | ★★★★★ |
| Metal | Apple M1-M4 | 20-50 tok/s | macOS | ★★★★★ |
| ROCm | AMD RX 7000 | 25-60 tok/s | Linux 中心 | ★★★☆☆ |
| Vulkan | AMD/Intel | 15-40 tok/s | クロスプラットフォーム | ★★★☆☆ |
CUDA:最も安定した選択
NVIDIA CUDA は現時点で最も成熟したソリューション。ドライバーが安定し、コミュニティサポートも充実、ドキュメントも豊富。Ollama をインストールすれば CUDA が自動認識され、設定をいじる必要はほぼありません。
私の RTX 3060 は CUDA で Llama 3.1 8B Q4 を走らせ、平均 45 tokens/s。推論は滑らかで、レスポンスも速く、快適な体験です。
CUDA の弱点は一つだけ——高い。NVIDIA GPU のプレミアムは深刻で、RTX 4090 は現在 $1800 前後。
Metal:Mac ユーザーの第一候補
Apple Metal は Mac 上で優秀なパフォーマンスを発揮。M1/M2/M3/M4 すべて対応。Mac の統合メモリアーキテクチャの強みは、VRAM とシステムメモリが共有されるため、より大きなモデルを動かせること。
MLX バックエンドが鍵。MLX を有効にすると速度がほぼ 2 倍。実測:7B モデルが 57.8 tok/s から 111.4 tok/s へ、93% の向上。
MLX の有効化方法:
# MLX 版をインストール
OLLAMA_ORIGINS=MLX ollama serve
ただし前提条件あり:Mac は 32GB 以上の統合メモリが必要。16GB 以下だと大モデルは厳しい。
ROCm:AMD の険しい道
AMD ROCm は Linux ならまあまあ、Windows では手間がかかります。公式サポートは Linux が中心で、Windows 版は実験段階。バグが多く、互換性も不安定。
AMD GPU + Windows の場合は Vulkan への切り替えを推奨:
OLLAMA_VULKAN=1 ollama serve
Vulkan はクロスプラットフォームで互換性が高い。CUDA より少し遅いものの、安定して動きます。
私の提案:手間を避けたいなら NVIDIA CUDA。Mac ユーザーなら Metal + MLX。AMD ユーザーは Linux + ROCm、または Windows + Vulkan。
四、GPU モデルおすすめ:エントリーからフラッグシップまで
予算別のグレード別おすすめ表です。
エントリー級(予算 $200〜400)
| モデル | VRAM | 適合モデル | 性能 | 価格 |
|---|---|---|---|---|
| RTX 3060 12GB | 12GB | 7B Q4, 13B Q4 | 40-60 tok/s | $250 |
| RX 6600 8GB | 8GB | 7B Q4 | 30-45 tok/s | $200 |
RTX 3060 12GB がエントリーの第一候補。12GB VRAM で 7B Q4 と 13B Q4 が動き、コスパも抜群。「RTX 4060 8GB と RTX 3060 12GB、LLM にはどちら?」とよく聞かれます。
答えは明確:3060 12GB。4060 は演算力こそ高いが、8GB VRAM が致命的。13B モデルで VRAM 不足になり、体験は最悪です。
RX 6600 は予算が限られ 7B だけ動かすユーザー向け。ただし AMD は Windows 上で Vulkan 設定が必要で、NVIDIA ほど安定しません。
主流級(予算 $400〜800)
| モデル | VRAM | 適合モデル | 性能 | 価格 |
|---|---|---|---|---|
| RTX 4060 Ti 16GB | 16GB | 13B Q4/Q8, 14B Q4 | 50-80 tok/s | $400 |
| RTX 4070 Super 12GB | 12GB | 7B Q8, 13B Q4 | 60-90 tok/s | $600 |
RTX 4060 Ti 16GB が最もおすすめ。16GB VRAM はちょうどスイートスポット——13B Q8 も 14B Q4 も問題なし。$400 でコスパも高い。
RTX 4070 Super は演算力が上ですが、12GB VRAM の制約で 13B Q4 まで。速度重視なら 4070 Super、モデルサイズ重視なら 4060 Ti 16GB。
ハイエンド級(予算 $1,200〜2,000)
| モデル | VRAM | 適合モデル | 性能 | 価格 |
|---|---|---|---|---|
| RTX 4090 24GB | 24GB | 32B Q4, 70B Q4* | 80-150 tok/s | $1,800 |
| RTX 5090 32GB | 32GB | 70B Q5/Q8 | 150-200 tok/s | $2,000 |
| RX 7900 XTX 24GB | 24GB | 32B Q4 | 60-100 tok/s | $900 |
*注:RTX 4090 単体で 70B Q4 を動かすには、より積極的な量子化(Q4_K_S)かデュアル GPU 構成が必要。
RTX 4090 は現行フラッグシップ。24GB VRAM で 32B Q4 は余裕、70B はより積極的な量子化かデュアル GPU が必要。
RTX 5090 32GB は 2026 年の新フラッグシップ。32GB VRAM で 70B Q5 が動き、$2,000。大モデルを頻繁に使うなら投資価値あり。
RX 7900 XTX はコスパ良好。24GB VRAM が $900。ただし AMD ROCm は Windows 上で不安定——Linux ユーザー向け。
Mac ユーザー向け
| チップ | 統合メモリ | 適合モデル | 性能 |
|---|---|---|---|
| M4 Pro | 24GB | 14B Q4 | 35-55 tok/s |
| M4 Max | 128GB | 70B Q4 | 28-30 tok/s |
| M3 Ultra | 192GB | 70B+、複数モデル並列 | 25-35 tok/s |
Mac の統合メモリアーキテクチャにより、より大きなモデルを動かせます。M4 Max 128GB なら 70B Q4 を量子化の妥協なしで実行可能。
Mac の弱点は速度。M4 Max で 70B でも 28〜30 tok/s と、RTX 4090 より大幅に遅い。速度重視なら NVIDIA、モデルの完全性と手軽さ重視なら Mac が向いています。
コスパ最強:中古 RTX 3090 24GB
隠れた選択肢があります:中古 RTX 3090 24GB。
中古市場では RTX 3090 が約 $600。24GB VRAM で 32B Q4 と 70B Q4(積極的量子化)が動き、4090 より演算力は劣るものの、価格は半分。
友人が中古 3090 を買い、1 年以上問題なく使っています。信頼できる出品者を見つけ、マイニング用の掘り出し物は避けることが前提。
五、購入判断フロー
4 章を読んでも、まだ迷うかもしれません。表も多い、型番も多い——どう選ぶ?
シンプルなフローで、一歩ずつ決めていきましょう。
ステップ 1:目標モデルを決める
何を動かしたいか。これが核心です。
- 日常会話・執筆支援:7B で十分(Llama 3.1 8B、Qwen 2.5 7B)
- コード支援・技術 Q&A:13B〜14B が適切(Qwen 2.5 14B、DeepSeek Coder)
- 複雑な推論・長文生成:32B〜70B(DeepSeek V3、Qwen 2.5 72B)
大半の人は 7B か 13B を選びます。70B は特殊なニーズがなければ不要。
ステップ 2:量子化の好みを決める
- VRAM が厳しい:Q4_K_M(デフォルト)
- VRAM に余裕:Q5_K_M(精度重視)
- 研究・比較:Q8_0 または FP16
まず Q4_K_M から。大半のシーンで品質は十分、VRAM も節約できます。
ステップ 3:表で VRAM を確認
第 1 章の対照表に戻り、モデル + 量子化の組み合わせで VRAM 要件を確認。
例:Llama 3.1 8B Q4_K_M なら 4〜6GB。最低 8GB VRAM の GPU が必要(2GB の安全マージン込み)。
ステップ 4:予算で GPU を選ぶ
VRAM 要件と予算を組み合わせ、第 4 章のグレード別表を参照。
- 予算 $200〜400:RTX 3060 12GB
- 予算 $400〜800:RTX 4060 Ti 16GB
- 予算 $1,200+:RTX 4090 24GB または RTX 5090 32GB
- Mac ユーザー:M4 Max 128GB
ステップ 5:プラットフォーム対応を確認
最後に OS プラットフォームをチェック。
- Windows:NVIDIA CUDA が最も安定、AMD は Vulkan
- Linux:NVIDIA CUDA と AMD ROCm ともに安定
- macOS:Apple Metal + MLX、93% の速度向上
判断例
Llama 3.3 70B を動かしたいと仮定します。
- 目標モデル:70B
- 量子化:Q4_K_M(コスパ重視)
- VRAM 要件:表より 40〜48GB
- 予算:$1,500 前後
- プラットフォーム:Windows
結果分析:
- RTX 4090 24GB:単体では不足、デュアル GPU か積極的量子化が必要
- RTX 5090 32GB:単体でギリギリ、Q4_K_S なら動作
- 中古 RTX 3090 24GB × 2:$1,200、48GB VRAM、コスパ最高
- Mac M4 Max 128GB:完全実行可能だが速度は遅め
最終提案:予算重視なら中古デュアル RTX 3090。安定重視なら RTX 5090 32GB。Mac ユーザーなら M4 Max 128GB が 70B を完全に動かせる唯一の単体構成。
まとめ
ハードウェア選定の核心は一言で:VRAM が上限を決め、量子化が下限を決める。
対照表 1 枚、おすすめリスト 1 つ、3 大アクセラレーション技術の比較——この記事で迷っていた点を整理しました。
まだ迷っているなら、次の黄金律を覚えておいてください。
- 予算が限られている:RTX 3060 12GB、エントリーの第一候補。7B と 13B が動く
- 性能重視:RTX 4090 24GB または 4060 Ti 16GB、スイートスポットからフラッグシップまで
- Mac ユーザー:M4 Max 128GB、70B を完全に動かせる唯一の単体構成
- コスパ最強:中古 RTX 3090 24GB、$600 で 32B と 70B が動く
Ollama の実践テクニックは、本シリーズの他記事もどうぞ:Ollama GPU アクセラレーションガイド、ローカル LLM モデル選択比較。
FAQ
7B モデルにはどれくらいの VRAM が必要?
RTX 3060 12GB と RTX 4060 8GB、LLM 実行にはどちらが向いている?
Q4 量子化はモデル品質に大きく影響する?
AMD GPU で Ollama は動く?
Mac ユーザーが最高性能を得るには?
予算が限られているが 70B モデルを動かしたい場合は?
6分で読めます · 公開日: 2026年5月28日 · 更新日: 2026年6月8日
Ollama ローカル LLM 実践ガイド
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
Ollama + Open WebUI:ローカルChatGPT環境を構築する完全ガイド
OllamaとOpen WebUIを使い、ローカルでChatGPT風のAIチャット画面を構築する手順を解説。インストール、モデル選び、RAGナレッジベース、API連携、性能最適化までカバーし、30分でローカルAIアシスタントが完成します。
第 7 / 19 記事
次の記事
Ollama パフォーマンス最適化の実践:量子化・バッチ処理・メモリ調整の完全ガイド
Ollama の量子化 Q4/Q5/Q8 の選び方、num_batch によるバッチ処理でスループットを 50〜150% 向上させる方法、GPU メモリ管理と OOM 対策を解説。各種ハードウェアの性能ベンチマーク付き。
第 9 / 19 記事
関連記事
Ollama 入門:ローカルで大規模言語モデルを動かす第一歩
Ollama 入門:ローカルで大規模言語モデルを動かす第一歩
Ollama モデル管理:ダウンロード、切り替え、削除とバージョン管理の完全ガイド
Ollama モデル管理:ダウンロード、切り替え、削除とバージョン管理の完全ガイド
Ollama Modelfile パラメータ徹底解説:専用カスタムモデルを作る完全ガイド
コメント
GitHubアカウントでログインしてコメントできます