Llama 70B ローカル実行:5700XT・Mac M4・CUDA 3 構成比較と選定ガイド
Llama 70B をローカルで動かしたい?手元の AMD 5700XT 8GB VRAM で足りる?Mac M4 ならどう?
答えは意外かもしれません。70B の FP16 フル版は 140GB VRAM が必要で、一般的なコンシューマ向けハードではほぼ無理です。ただし量子化のおかげで、必要量は 40GB 前後まで下がり、話が一気に現実的になります。
この記事では、3 つのよくある構成を実測ベースで比較します。AMD 5700XT(いじり倒す人向け)、Mac M4(統合メモリの強み)、NVIDIA CUDA(定番エコシステム)。読み終わる頃には、自分に合う選択が 5 分ほどで見えてくるはずです。
Llama 70B の VRAM 要件、本当のところ
量子化は、ざっくり言えばモデルを「圧縮」することです。FP16 では 1 パラメータあたり 2 バイト。700 億パラメータを掛けると 140GB VRAM。RTX 4090 の 24GB でも、全然足りません。
そこで GGUF 形式の量子化版が活躍します。
量子化レベルの選び方
レベルによって VRAM 使用量は大きく変わります。
| 量子化レベル | VRAM 要件 | 精度ロス | 向いている用途 |
|---|---|---|---|
| Q8_0 | ~75GB | ごく小さい | 研究・精度重視 |
| Q6_K | ~55GB | 小さい | 64GB 以上のメモリ |
| Q5_K_M | ~45GB | 許容範囲 | Mac 64GB メモリ |
| Q4_K_M | ~35-40GB | バランス型 | 多くのコンシューマ向けハード |
| Q3_K_M | ~30GB | 目立つ | VRAM を極限まで削りたい場合 |
おすすめは Q4_K_M です。精度と VRAM のバランスがいちばん取りやすい。Q3 でも動きますが、回答品質や論理推論が目に見えて落ちます。Q5 以上はより良い一方、メモリ要件も上がります。
もう 1 つ忘れがちなのが KV Cache です。推論中にコンテキストを保持する分、追加で 5GB 前後必要になります。Q4_K_M を実運用するなら、空き 40〜45GB は見ておきましょう。
3 つのハード構成、実測比較
まず表で整理します。数値は Reddit LocalLLaMA フォーラムと複数の技術ブログの実測をもとにしています。
| 構成 | VRAM/メモリ | 動かせるモデル | 70B Q4 の性能 | 価格帯 | 設定の難易度 |
|---|---|---|---|---|---|
| AMD 5700XT | 8GB VRAM | 7B は可、12B は一部 | 非推奨 | 中古 $150-200 | 難しい |
| Mac M4 Max | 128GB 統合メモリ | 70B Q4/Q5 | 20-28 tok/s | $3500+ | 簡単 |
| NVIDIA RTX 4090 | 24GB VRAM | 32B は可、70B は offload | 18 tok/s (offload) | $1500-2000 | 中程度 |
| NVIDIA RTX 5090 | 32GB VRAM | 70B Q4 単体 | 25+ tok/s 見込み | $2000+ | 簡単 |
AMD 5700XT:いじり倒す人の悪夢
正直、5700XT で 70B を動かすのは無理筋です。8GB VRAM では 7B Q4 もギリギリ。70B は論外。それでも ROCm の回避策を試す人はいます——私もやりました。
結果は不安定。起動はできても、いつ落ちるかわかりません。AMD は RDNA1(5700XT が該当)向け ROCm を公式サポートしていません。コミュニティの環境変数上書きに頼る形です。
HSA_OVERRIDE_GFX_VERSION=10.1.0
これで ROCm を動かせるように見せかけられますが、性能も安定性も期待薄。学習目的で触る分にはアリ。本番利用なら別の選択を。
Mac M4:統合メモリが武器
Apple Silicon の統合メモリは、大規模モデル向きです。M4 Max 128GB なら、システム RAM と VRAM が同じプール——「VRAM が足りないから RAM に逃がす」問題を気にしなくて済みます。
実測は 20〜28 tok/s。ローカル推論としてはかなり快適な部類。Ollama や MLX を入れて、数コマンドで動かせます。
欠点は価格。M4 Max は $3500 から。ただし普段 Mac で仕事もするなら、大モデル実行分を上乗せで考えれば、意外と割り切れます。
NVIDIA CUDA:エコシステムは強いが、70B は offload 前提
RTX 4090 の 24GB VRAM なら 32B は余裕。70B は足りません。offload で一部レイヤーを GPU、残りをシステムメモリに載せる必要があります。
動きますが、速度は落ちます。実測 18 tok/s 前後で、Mac M4 Max よりやや遅め。CPU と GPU の間をデータが行ったり来たりするコストがそのまま出ます。
RTX 5090 は 32GB VRAM で、70B Q4 を単体 GPU で回せます。ただし発売時期・価格($2000 前後見込み)は要確認。
CUDA の強みはエコシステム。ファインチューニングなら PyTorch や Hugging Face も CUDA 優先。Apple Silicon や AMD ではこの点で追いつきにくいです。
自分に合う構成の見極め方
迷ったら、次の流れで決めましょう。
ステップ 1:今、何を持っているか
5700XT がある?
- ROCm の回避策は試せるが、覚悟は必要
- 現実的には 7B まで(12B も一部 offload)
- ROCm の仕組みを学びたい・ハマりを楽しめる人向け
Mac がある?
- メモリ容量を確認:64GB なら 70B Q5、128GB ならより余裕
- M4 Pro/Max の方が速い。ベース M4 でも動くことは多い
- まず試す価値あり。成功率は高め
何もない?
- 次の予算ステップへ
ステップ 2:予算で絞る
| 予算帯 | おすすめ | 補足 |
|---|---|---|
| <$500 | 中古 5700XT または Mac Mini M4 エントリー | 5700XT はリスク大。M4 エントリー 16GB は小モデル向け |
| $500-2000 | RTX 4090 または Mac Mini M4 Pro | 4090 は offload 前提。M4 Pro 24GB なら 70B Q4 可 |
| $2000+ | RTX 5090 または Mac Studio M4 Max | ファインチューニングなら NVIDIA。推論だけなら Mac |
ステップ 3:何をしたいか
とりあえず触ってみたい?
- 7B が動くハードで十分。70B にこだわらなくても、ローカル推論の感触はつかめます。
毎日使って、安定重視?
- Mac M4 系がいちばん楽。CUDA 版や ROCm のバージョン合わせに悩みにくい。
ファインチューニングしたい?
- NVIDIA CUDA 一択。ツール・チュートリアル・実例が最も多い。
推論速度を最優先?
- Mac M4 Max なら MLX が llama.cpp より 30〜50% 速いケースあり。後述します。
多くの人は 2 番目——安定して日常利用——に当てはまります。Mac はドライバ地獄や互換性問題が少なく、すぐ使い始められます。
Mac ユーザー向け:MLX と llama.cpp
Mac だけの悩みが、MLX か llama.cpp か。
性能比較
Compute Market の実測をもとに整理します。
| シナリオ | MLX | llama.cpp | 差 |
|---|---|---|---|
| 短いプロンプト (<512 tokens) | 速い | 基準 | MLX が 30〜50% 速い |
| 長いプロンプト (>2048 tokens) | 基準 | 速い | llama.cpp がやや有利 |
| 全体の推論速度 | ~25 tok/s | ~20 tok/s | MLX が先行 |
MLX は Apple Silicon 向けに最適化され、Metal GPU を直接叩けます。llama.cpp はクロスプラットフォームで Metal も使えますが、最適化の深さは MLX に一歩譲ります。
どう選ぶ?
推論だけ、速度重視?
- MLX。
mlx_lm.generateですぐ試せます。
llama.cpp 依存のツールを使う?
- 特定のサードパーティツールや、同じ GGUF を複数デバイスで回したいなら llama.cpp。互換性はこちらが上。
迷っている?
- 両方入れて実際に回す。どちらもインストールは簡単です。
個人的には MLX 派です。用途はローカル推論中心で、速度が最優先。ツールチェーンの互換性は必須ではありません。
まとめ
最後に、早見表です。
| あなたの状況 | おすすめ | 理由 |
|---|---|---|
| Mac 所持(64GB+ メモリ) | そのまま使う。MLX 推奨 | いちばん手間が少なく、速度も良い |
| ハードなし、予算 <$500 | Mac Mini M4 エントリー | 5700XT より安定。リスク低 |
| 予算 $500-2000、安定重視 | Mac Mini M4 Pro | 24GB で 70B Q4 可 |
| 予算 $2000+、ファインチューニング | RTX 4090/5090 | CUDA エコシステム |
| ROCm をいじって学びたい | 中古 5700XT | 安いが、落とし穴覚悟 |
一言で言うと:Mac は手軽で安定、CUDA はエコシステムが広い、AMD は安いが手間が多い。
本気で使うなら設定いじりを避けたい——Mac。予算は厳しいがハマりを楽しめる——5700XT は試す価値はあるが、70B への期待は下げて。ファインチューニングする——NVIDIA CUDA。
試すなら、Mac があれば Ollama か MLX で 7B から。Mac がなければ、今のハードで小モデルが回るか先に確認を。70B はゴールであってスタート地点ではありません。まず動かしてから、必要ならスケールアップを。
FAQ
Llama 70B を動かすのにどれくらい VRAM が必要?
大規模モデルなら Mac M4 と NVIDIA、どちらが向いている?
予算が限られているなら何を買うべき?
AMD 5700XT で Llama 70B は動く?
Mac では MLX と llama.cpp、どちらを使う?
4分で読めます · 公開日: 2026年5月28日 · 更新日: 2026年6月8日
Ollama ローカル LLM 実践ガイド
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
Ollama API 呼び出し:curl から OpenAI SDK 互換インターフェースまで
Ollama API を呼び出す2つの方法を学びます:ネイティブ REST API(curl)と OpenAI SDK 互換インターフェース。完全なコード例、ストリーミング応答の処理、ベストプラクティスを解説します。
第 5 / 19 記事
次の記事
Ollama + Open WebUI:ローカルChatGPT環境を構築する完全ガイド
OllamaとOpen WebUIを使い、ローカルでChatGPT風のAIチャット画面を構築する手順を解説。インストール、モデル選び、RAGナレッジベース、API連携、性能最適化までカバーし、30分でローカルAIアシスタントが完成します。
第 7 / 19 記事
関連記事
Ollama 入門:ローカルで大規模言語モデルを動かす第一歩
Ollama 入門:ローカルで大規模言語モデルを動かす第一歩
Ollama モデル管理:ダウンロード、切り替え、削除とバージョン管理の完全ガイド
Ollama モデル管理:ダウンロード、切り替え、削除とバージョン管理の完全ガイド
Ollama Modelfile パラメータ徹底解説:専用カスタムモデルを作る完全ガイド
コメント
GitHubアカウントでログインしてコメントできます