言語を切り替える
テーマを切り替える

Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)

4-6 GB
7B Q4 の VRAM 要件
エントリー級 GPU で実行可能
40-48 GB
70B Q4 の VRAM 要件
RTX 5090 またはデュアル GPU が必要
93%
Mac MLX の性能向上
有効化で速度が約 2 倍
数据来源: 実測データと公式ドキュメント

Ollama ハードウェア選定表:VRAM・量子化・GPU 比較ガイド(2026)

ローカルで 7B モデルを動かすには、GPU にどれくらいの VRAM が必要でしょうか。13B なら?ネット上では「8GB で足りる」という声もあれば「最低 16GB」という意見も——結局どれを信じればいいのか。

この疑問に何ヶ月も悩まされました。Ollama を始めた去年、RTX 3060 12GB を買ったときは「12GB あれば十分でしょ」と思っていました。ところが 13B モデルを走らせると VRAM が溢れ、速度は 3 tokens/s まで落ち込み——まるで Web ページを三輪車で読んでいるような感覚。

後から分かったのは、VRAM の境界は物理的な壁だということ。越えれば地獄、越えなければ快適。

この記事では、市場の主流 GPU・モデルパラメータ数・量子化レベルをすべて対照表にまとめました。読み終われば、あなたの GPU でどのモデルが動くか、予算に合う GPU はどれか、すぐに判断できます。

一、核心対照表:VRAM 要件が一目で分かる

まず公式から。VRAM 要件の目安は次のとおりです。

VRAM 要件 ≈ パラメータ数(B) × 量子化ビット数 ÷ 8 + KV Cache(1〜2GB)

式はシンプルですが、実行できるモデルサイズを決める重要な指標。例えば 7B モデルを Q4 量子化(4-bit)で動かすと、7 × 4 ÷ 8 = 3.5GB。KV Cache と実行オーバーヘッドを足すと、実際には 4〜6GB 必要です。

完全な対照表はこちら。保存しておくと便利です。

モデルサイズQ4_K_MQ5_K_MQ8_0FP16推奨 GPU
7B4-6 GB5-6 GB7-8 GB14 GBRTX 3060 12GB
13B8-10 GB10-12 GB13-14 GB26 GBRTX 4060 Ti 16GB
32B20-24 GB24-28 GB32-36 GB64 GBRTX 4090 24GB
70B40-48 GB48-56 GB70-80 GB140 GBRTX 5090 32GB

表の重要ポイント:VRAM が足りないと、性能は 5〜20 倍も落ちる

RTX 3060 12GB で 13B Q4_K_M を実測したことがあります。VRAM が境界線ギリギリ——動くときもあれば溢れるときも。溢れた瞬間、Ollama は一部データをシステムメモリに退避し、速度は 45 tokens/s から 2〜3 tokens/s へ。スポーツカーから三輪車に乗り換えたような感覚です。

GPU を選ぶときは、境界ギリギリより 2GB 多めを選びましょう。

二、量子化の選び方:Q4 vs Q5 vs Q8 実践アドバイス

量子化は VRAM 要件を下げる鍵です。

FP16 は元のモデル精度で、各パラメータを 16-bit で保持。Q4 量子化は 4-bit に圧縮し、VRAM 要件を半分近くに削減できます。ただし、圧縮で品質は落ちるのか?

答えは「はい、ただし想像より小さい」です。

実測データは次のとおり。

量子化レベル7B モデル VRAM品質低下適用シーン
Q4_K_M4.5 GB1-3%日常使用(推奨)
Q5_K_M5.7 GB<1%精度重視
Q8_07.7 GB<0.5%最高品質
FP1614 GB0%研究・比較ベンチマーク

Q4_K_M がデフォルトの選択肢。品質低下は 1〜3% で、ほとんどのシーンでは違いを感じにくい。Q4_K_M の Llama 3.1 8B で技術記事を書いたことがありますが、FP16 版と比べて肉眼では判別困難でした。

Q5_K_M は 16GB 以上 VRAM のユーザー向け。RTX 4060 Ti 16GB をお持ちなら、Q5 で推論品質が向上し、特に数学推論や長文生成で効果が出ます。

Q8_0 は元品質に近い。正直、モデルベンチマークや研究用途でなければ Q8 は不要。VRAM 要件は 2 倍になるのに、得られる改善は限定的です。

もう一点:Q3 と Q2 は避けましょう。品質低下が目に見えて、モデルが的外れな回答を始めます。VRAM が本当に 4GB しかない場合を除き、触らない方がいい。

おすすめ:まず Q4_K_M を試し、品質に不満があれば Q5 へ。大半のケースで Q4 で十分です。

三、3 大アクセラレーション技術比較:CUDA vs Metal vs ROCm

GPU 選びは VRAM だけではありません。アクセラレーション技術も重要。

Ollama は 4 種類の GPU バックエンドをサポート:NVIDIA CUDA、Apple Metal、AMD ROCm、Vulkan。それぞれ長所・短所があり、プラットフォームを間違えると性能が半分になることも。

比較表はこちら。

アクセラレーション対応ハードウェア7B 性能OS サポート成熟度
CUDANVIDIA GPU30-80 tok/sWin/Linux★★★★★
MetalApple M1-M420-50 tok/smacOS★★★★★
ROCmAMD RX 700025-60 tok/sLinux 中心★★★☆☆
VulkanAMD/Intel15-40 tok/sクロスプラットフォーム★★★☆☆

CUDA:最も安定した選択

NVIDIA CUDA は現時点で最も成熟したソリューション。ドライバーが安定し、コミュニティサポートも充実、ドキュメントも豊富。Ollama をインストールすれば CUDA が自動認識され、設定をいじる必要はほぼありません。

私の RTX 3060 は CUDA で Llama 3.1 8B Q4 を走らせ、平均 45 tokens/s。推論は滑らかで、レスポンスも速く、快適な体験です。

CUDA の弱点は一つだけ——高い。NVIDIA GPU のプレミアムは深刻で、RTX 4090 は現在 $1800 前後。

Metal:Mac ユーザーの第一候補

Apple Metal は Mac 上で優秀なパフォーマンスを発揮。M1/M2/M3/M4 すべて対応。Mac の統合メモリアーキテクチャの強みは、VRAM とシステムメモリが共有されるため、より大きなモデルを動かせること。

MLX バックエンドが鍵。MLX を有効にすると速度がほぼ 2 倍。実測:7B モデルが 57.8 tok/s から 111.4 tok/s へ、93% の向上。

MLX の有効化方法:

# MLX 版をインストール
OLLAMA_ORIGINS=MLX ollama serve

ただし前提条件あり:Mac は 32GB 以上の統合メモリが必要。16GB 以下だと大モデルは厳しい。

ROCm:AMD の険しい道

AMD ROCm は Linux ならまあまあ、Windows では手間がかかります。公式サポートは Linux が中心で、Windows 版は実験段階。バグが多く、互換性も不安定。

AMD GPU + Windows の場合は Vulkan への切り替えを推奨:

OLLAMA_VULKAN=1 ollama serve

Vulkan はクロスプラットフォームで互換性が高い。CUDA より少し遅いものの、安定して動きます。

私の提案:手間を避けたいなら NVIDIA CUDA。Mac ユーザーなら Metal + MLX。AMD ユーザーは Linux + ROCm、または Windows + Vulkan。

四、GPU モデルおすすめ:エントリーからフラッグシップまで

予算別のグレード別おすすめ表です。

エントリー級(予算 $200〜400)

モデルVRAM適合モデル性能価格
RTX 3060 12GB12GB7B Q4, 13B Q440-60 tok/s$250
RX 6600 8GB8GB7B Q430-45 tok/s$200

RTX 3060 12GB がエントリーの第一候補。12GB VRAM で 7B Q4 と 13B Q4 が動き、コスパも抜群。「RTX 4060 8GB と RTX 3060 12GB、LLM にはどちら?」とよく聞かれます。

答えは明確:3060 12GB。4060 は演算力こそ高いが、8GB VRAM が致命的。13B モデルで VRAM 不足になり、体験は最悪です。

RX 6600 は予算が限られ 7B だけ動かすユーザー向け。ただし AMD は Windows 上で Vulkan 設定が必要で、NVIDIA ほど安定しません。

主流級(予算 $400〜800)

モデルVRAM適合モデル性能価格
RTX 4060 Ti 16GB16GB13B Q4/Q8, 14B Q450-80 tok/s$400
RTX 4070 Super 12GB12GB7B Q8, 13B Q460-90 tok/s$600

RTX 4060 Ti 16GB が最もおすすめ。16GB VRAM はちょうどスイートスポット——13B Q8 も 14B Q4 も問題なし。$400 でコスパも高い。

RTX 4070 Super は演算力が上ですが、12GB VRAM の制約で 13B Q4 まで。速度重視なら 4070 Super、モデルサイズ重視なら 4060 Ti 16GB。

ハイエンド級(予算 $1,200〜2,000)

モデルVRAM適合モデル性能価格
RTX 4090 24GB24GB32B Q4, 70B Q4*80-150 tok/s$1,800
RTX 5090 32GB32GB70B Q5/Q8150-200 tok/s$2,000
RX 7900 XTX 24GB24GB32B Q460-100 tok/s$900

*注:RTX 4090 単体で 70B Q4 を動かすには、より積極的な量子化(Q4_K_S)かデュアル GPU 構成が必要。

RTX 4090 は現行フラッグシップ。24GB VRAM で 32B Q4 は余裕、70B はより積極的な量子化かデュアル GPU が必要。

RTX 5090 32GB は 2026 年の新フラッグシップ。32GB VRAM で 70B Q5 が動き、$2,000。大モデルを頻繁に使うなら投資価値あり。

RX 7900 XTX はコスパ良好。24GB VRAM が $900。ただし AMD ROCm は Windows 上で不安定——Linux ユーザー向け。

Mac ユーザー向け

チップ統合メモリ適合モデル性能
M4 Pro24GB14B Q435-55 tok/s
M4 Max128GB70B Q428-30 tok/s
M3 Ultra192GB70B+、複数モデル並列25-35 tok/s

Mac の統合メモリアーキテクチャにより、より大きなモデルを動かせます。M4 Max 128GB なら 70B Q4 を量子化の妥協なしで実行可能。

Mac の弱点は速度。M4 Max で 70B でも 28〜30 tok/s と、RTX 4090 より大幅に遅い。速度重視なら NVIDIA、モデルの完全性と手軽さ重視なら Mac が向いています。

コスパ最強:中古 RTX 3090 24GB

隠れた選択肢があります:中古 RTX 3090 24GB

中古市場では RTX 3090 が約 $600。24GB VRAM で 32B Q4 と 70B Q4(積極的量子化)が動き、4090 より演算力は劣るものの、価格は半分。

友人が中古 3090 を買い、1 年以上問題なく使っています。信頼できる出品者を見つけ、マイニング用の掘り出し物は避けることが前提。

五、購入判断フロー

4 章を読んでも、まだ迷うかもしれません。表も多い、型番も多い——どう選ぶ?

シンプルなフローで、一歩ずつ決めていきましょう。

ステップ 1:目標モデルを決める

何を動かしたいか。これが核心です。

  • 日常会話・執筆支援:7B で十分(Llama 3.1 8B、Qwen 2.5 7B)
  • コード支援・技術 Q&A:13B〜14B が適切(Qwen 2.5 14B、DeepSeek Coder)
  • 複雑な推論・長文生成:32B〜70B(DeepSeek V3、Qwen 2.5 72B)

大半の人は 7B か 13B を選びます。70B は特殊なニーズがなければ不要。

ステップ 2:量子化の好みを決める

  • VRAM が厳しい:Q4_K_M(デフォルト)
  • VRAM に余裕:Q5_K_M(精度重視)
  • 研究・比較:Q8_0 または FP16

まず Q4_K_M から。大半のシーンで品質は十分、VRAM も節約できます。

ステップ 3:表で VRAM を確認

第 1 章の対照表に戻り、モデル + 量子化の組み合わせで VRAM 要件を確認。

例:Llama 3.1 8B Q4_K_M なら 4〜6GB。最低 8GB VRAM の GPU が必要(2GB の安全マージン込み)。

ステップ 4:予算で GPU を選ぶ

VRAM 要件と予算を組み合わせ、第 4 章のグレード別表を参照。

  • 予算 $200〜400:RTX 3060 12GB
  • 予算 $400〜800:RTX 4060 Ti 16GB
  • 予算 $1,200+:RTX 4090 24GB または RTX 5090 32GB
  • Mac ユーザー:M4 Max 128GB

ステップ 5:プラットフォーム対応を確認

最後に OS プラットフォームをチェック。

  • Windows:NVIDIA CUDA が最も安定、AMD は Vulkan
  • Linux:NVIDIA CUDA と AMD ROCm ともに安定
  • macOS:Apple Metal + MLX、93% の速度向上

判断例

Llama 3.3 70B を動かしたいと仮定します。

  1. 目標モデル:70B
  2. 量子化:Q4_K_M(コスパ重視)
  3. VRAM 要件:表より 40〜48GB
  4. 予算:$1,500 前後
  5. プラットフォーム:Windows

結果分析:

  • RTX 4090 24GB:単体では不足、デュアル GPU か積極的量子化が必要
  • RTX 5090 32GB:単体でギリギリ、Q4_K_S なら動作
  • 中古 RTX 3090 24GB × 2:$1,200、48GB VRAM、コスパ最高
  • Mac M4 Max 128GB:完全実行可能だが速度は遅め

最終提案:予算重視なら中古デュアル RTX 3090。安定重視なら RTX 5090 32GB。Mac ユーザーなら M4 Max 128GB が 70B を完全に動かせる唯一の単体構成。

まとめ

ハードウェア選定の核心は一言で:VRAM が上限を決め、量子化が下限を決める

対照表 1 枚、おすすめリスト 1 つ、3 大アクセラレーション技術の比較——この記事で迷っていた点を整理しました。

まだ迷っているなら、次の黄金律を覚えておいてください。

  • 予算が限られている:RTX 3060 12GB、エントリーの第一候補。7B と 13B が動く
  • 性能重視:RTX 4090 24GB または 4060 Ti 16GB、スイートスポットからフラッグシップまで
  • Mac ユーザー:M4 Max 128GB、70B を完全に動かせる唯一の単体構成
  • コスパ最強:中古 RTX 3090 24GB、$600 で 32B と 70B が動く

Ollama の実践テクニックは、本シリーズの他記事もどうぞ:Ollama GPU アクセラレーションガイドローカル LLM モデル選択比較

FAQ

7B モデルにはどれくらいの VRAM が必要?
Q4_K_M 量子化なら 4〜6GB。KV Cache と実行オーバーヘッドを足すと、少なくとも 8GB VRAM の GPU を推奨。
RTX 3060 12GB と RTX 4060 8GB、LLM 実行にはどちらが向いている?
3060 12GB です。4060 は演算性能は高いものの、8GB VRAM がボトルネック。13B モデルでは VRAM 不足になります。LLM では演算力より VRAM が重要。
Q4 量子化はモデル品質に大きく影響する?
いいえ。Q4_K_M の品質低下は 1〜3% だけ。ほとんどの用途では違いを感じにくい。モデルベンチマークをしない限り、Q4 で十分。
AMD GPU で Ollama は動く?
はい。Linux なら ROCm が比較的安定。Windows では Vulkan を推奨(OLLAMA_VULKAN=1 を設定)。
Mac ユーザーが最高性能を得るには?
MLX バックエンドを有効化(OLLAMA_ORIGINS=MLX)。性能がほぼ 2 倍に。前提として Mac は 32GB 以上の統合メモリが必要。
予算が限られているが 70B モデルを動かしたい場合は?
中古 RTX 3090 24GB × 2 = 48GB VRAM、合計約 $1200 がコスパ最高。または Mac M4 Max 128GB の単体構成。

6分で読めます · 公開日: 2026年5月28日 · 更新日: 2026年6月8日

関連記事

コメント

GitHubアカウントでログインしてコメントできます