Llama 70B ローカル実行：5700XT・Mac M4・CUDA 3 構成比較と選定ガイド

Q: Llama 70B を動かすのにどれくらい VRAM が必要？

FP16 フル版は 140GB、Q4_K_M 量子化版は 35〜40GB。KV Cache を足すと合計 40〜45GB の空きメモリが必要です。

Q: 大規模モデルなら Mac M4 と NVIDIA、どちらが向いている？

推論だけなら Mac（安定・手軽）。ファインチューニングなら NVIDIA（ツールチェーンが充実）。Mac M4 Max は 20〜28 tok/s、RTX 4090 offload は約 18 tok/s。

Q: 予算が限られているなら何を買うべき？

予算 $500〜2000 なら RTX 4090 または Mac Mini M4 Pro（7B/13B と一部 32B 向き）。70B Q4 を安定して回すなら 64GB 以上の統合メモリ搭載 Mac、または RTX 3090 2 枚を優先。RTX 5090 は単体カードでの試行には向きますが、offload が必要になる場合があります。$500 未満の中古 5700XT は非推奨。

Q: AMD 5700XT で Llama 70B は動く？

動きません。8GB VRAM では 7B まで。ROCm は RDNA1 を公式サポートしておらず、回避策も不安定です。

Q: Mac では MLX と llama.cpp、どちらを使う？

短いプロンプトは MLX が 30〜50% 速い。長いプロンプトは llama.cpp がやや有利。他プラットフォームとの互換性なら llama.cpp、推論専用なら MLX。

Easton editorial illustration: 70B 权重块, 5700XT 测试架, M4 统一内存托盘, CUDA 双层 offload 试验架

20-28 tok/s

Mac M4 Max 70B Q4

統合メモリで性能が最も高い

18 tok/s

RTX 4090 70B offload

CPU-GPU 間のデータ移動コスト

~40GB

Q4_K_M の VRAM 要件

KV Cache 込みで約 45GB

数据来源: Reddit LocalLLaMA フォーラムと技術ブログの実測

Llama 70B をローカルで動かしたい？手元の AMD 5700XT 8GB VRAM で足りる？Mac M4 ならどう？

答えは意外かもしれません。70B の FP16 フル版は 140GB VRAM が必要で、一般的なコンシューマ向けハードではほぼ無理です。ただし量子化のおかげで、必要量は 40GB 前後まで下がり、話が一気に現実的になります。

この記事では、3 つのよくある構成を実測ベースで比較します。AMD 5700XT（いじり倒す人向け）、Mac M4（統合メモリの強み）、NVIDIA CUDA（定番エコシステム）。読み終わる頃には、自分に合う選択が 5 分ほどで見えてくるはずです。

Llama 70B の VRAM 要件、本当のところ

量子化は、ざっくり言えばモデルを「圧縮」することです。FP16 では 1 パラメータあたり 2 バイト。700 億パラメータを掛けると 140GB VRAM。RTX 4090 の 24GB でも、全然足りません。

そこで GGUF 形式の量子化版が活躍します。

量子化レベルの選び方

レベルによって VRAM 使用量は大きく変わります。

量子化レベル	VRAM 要件	精度ロス	向いている用途
Q8_0	~75GB	ごく小さい	研究・精度重視
Q6_K	~55GB	小さい	64GB 以上のメモリ
Q5_K_M	~45GB	許容範囲	Mac 64GB メモリ
Q4_K_M	~35-40GB	バランス型	多くのコンシューマ向けハード
Q3_K_M	~30GB	目立つ	VRAM を極限まで削りたい場合

おすすめは Q4_K_M です。精度と VRAM のバランスがいちばん取りやすい。Q3 でも動きますが、回答品質や論理推論が目に見えて落ちます。Q5 以上はより良い一方、メモリ要件も上がります。

もう 1 つ忘れがちなのが KV Cache です。推論中にコンテキストを保持する分、追加で 5GB 前後必要になります。Q4_K_M を実運用するなら、空き 40〜45GB は見ておきましょう。

3 つのハード構成、実測比較

まず表で整理します。数値は Reddit LocalLLaMA フォーラムと複数の技術ブログの実測をもとにしています。

構成	VRAM/メモリ	動かせるモデル	70B Q4 の性能	価格帯	設定の難易度
AMD 5700XT	8GB VRAM	7B は可、12B は一部	非推奨	中古 $150-200	難しい
Mac M4 Max	128GB 統合メモリ	70B Q4/Q5	20-28 tok/s	$3500+	簡単
NVIDIA RTX 4090	24GB VRAM	32B は可、70B は offload	18 tok/s (offload)	$1500-2000	中程度
NVIDIA RTX 5090	32GB VRAM	70B Q4 単体試行 / offload	コンテキスト次第	$2000+	中程度

AMD 5700XT：いじり倒す人の悪夢

正直、5700XT で 70B を動かすのは無理筋です。8GB VRAM では 7B Q4 もギリギリ。70B は論外。それでも ROCm の回避策を試す人はいます——私もやりました。

結果は不安定。起動はできても、いつ落ちるかわかりません。AMD は RDNA1（5700XT が該当）向け ROCm を公式サポートしていません。コミュニティの環境変数上書きに頼る形です。

HSA_OVERRIDE_GFX_VERSION=10.1.0

これで ROCm を動かせるように見せかけられますが、性能も安定性も期待薄。学習目的で触る分にはアリ。本番利用なら別の選択を。

Mac M4：統合メモリが武器

Apple Silicon の統合メモリは、大規模モデル向きです。M4 Max 128GB なら、システム RAM と VRAM が同じプール——「VRAM が足りないから RAM に逃がす」問題を気にしなくて済みます。

実測は 20〜28 tok/s。ローカル推論としてはかなり快適な部類。Ollama や MLX を入れて、数コマンドで動かせます。

欠点は価格。M4 Max は $3500 から。ただし普段 Mac で仕事もするなら、大モデル実行分を上乗せで考えれば、意外と割り切れます。

NVIDIA CUDA：エコシステムは強いが、70B は offload 前提

RTX 4090 の 24GB VRAM なら 32B は余裕。70B は足りません。offload で一部レイヤーを GPU、残りをシステムメモリに載せる必要があります。

動きますが、速度は落ちます。実測 18 tok/s 前後で、Mac M4 Max よりやや遅め。CPU と GPU の間をデータが行ったり来たりするコストがそのまま出ます。

RTX 5090 はすでに 32GB GDDR7 搭載で発売済みです。RTX 4090 より 70B Q4 の単体 GPU 候補としては向いていますが、長いコンテキストや実行オーバーヘッドでは offload が必要になることがあります。価格と在庫も変動します。

CUDA の強みはエコシステム。ファインチューニングなら PyTorch や Hugging Face も CUDA 優先。Apple Silicon や AMD ではこの点で追いつきにくいです。

自分に合う構成の見極め方

迷ったら、次の流れで決めましょう。

ステップ 1：今、何を持っているか

5700XT がある？

ROCm の回避策は試せるが、覚悟は必要
現実的には 7B まで（12B も一部 offload）
ROCm の仕組みを学びたい・ハマりを楽しめる人向け

Mac がある？

メモリ容量を確認：64GB なら 70B Q5、128GB ならより余裕
M4 Pro/Max の方が速い。ベース M4 でも動くことは多い
まず試す価値あり。成功率は高め

何もない？

次の予算ステップへ

ステップ 2：予算で絞る

予算帯	おすすめ	補足
<$500	中古 5700XT または Mac Mini M4 エントリー	5700XT はリスク大。M4 エントリー 16GB は小モデル向け
$500-2000	RTX 4090 または Mac Mini M4 Pro	4090 は 70B で offload 前提。M4 Pro 24GB は 7B/13B と一部 32B 向き
$2000+	RTX 5090 または Mac Studio M4 Max	ファインチューニングなら NVIDIA。推論だけなら Mac

ステップ 3：何をしたいか

とりあえず触ってみたい？

7B が動くハードで十分。70B にこだわらなくても、ローカル推論の感触はつかめます。

毎日使って、安定重視？

Mac M4 系がいちばん楽。CUDA 版や ROCm のバージョン合わせに悩みにくい。

ファインチューニングしたい？

NVIDIA CUDA 一択。ツール・チュートリアル・実例が最も多い。

推論速度を最優先？

Mac M4 Max なら MLX が llama.cpp より 30〜50% 速いケースあり。後述します。

多くの人は 2 番目——安定して日常利用——に当てはまります。Mac はドライバ地獄や互換性問題が少なく、すぐ使い始められます。

Mac ユーザー向け：MLX と llama.cpp

Mac だけの悩みが、MLX か llama.cpp か。

性能比較

Compute Market の実測をもとに整理します。

シナリオ	MLX	llama.cpp	差
短いプロンプト (<512 tokens)	速い	基準	MLX が 30〜50% 速い
長いプロンプト (>2048 tokens)	基準	速い	llama.cpp がやや有利
全体の推論速度	~25 tok/s	~20 tok/s	MLX が先行

MLX は Apple Silicon 向けに最適化され、Metal GPU を直接叩けます。llama.cpp はクロスプラットフォームで Metal も使えますが、最適化の深さは MLX に一歩譲ります。

どう選ぶ？

推論だけ、速度重視？

MLX。mlx_lm.generate ですぐ試せます。

llama.cpp 依存のツールを使う？

特定のサードパーティツールや、同じ GGUF を複数デバイスで回したいなら llama.cpp。互換性はこちらが上。

迷っている？

両方入れて実際に回す。どちらもインストールは簡単です。

個人的には MLX 派です。用途はローカル推論中心で、速度が最優先。ツールチェーンの互換性は必須ではありません。

まとめ

最後に、早見表です。

あなたの状況	おすすめ	理由
Mac 所持（64GB+ メモリ）	そのまま使う。MLX 推奨	いちばん手間が少なく、速度も良い
ハードなし、予算 <$500	Mac Mini M4 エントリー	5700XT より安定。リスク低
予算 $500-2000、安定重視	Mac Mini M4 Pro または RTX 4090	24GB は 7B/13B 向き。70B は 64GB+ または offload が必要
予算 $2000+、ファインチューニング	RTX 4090/5090	CUDA エコシステム
ROCm をいじって学びたい	中古 5700XT	安いが、落とし穴覚悟

一言で言うと：Mac は手軽で安定、CUDA はエコシステムが広い、AMD は安いが手間が多い。

本気で使うなら設定いじりを避けたい——Mac。予算は厳しいがハマりを楽しめる——5700XT は試す価値はあるが、70B への期待は下げて。ファインチューニングする——NVIDIA CUDA。

試すなら、Mac があれば Ollama か MLX で 7B から。Mac がなければ、今のハードで小モデルが回るか先に確認を。70B はゴールであってスタート地点ではありません。まず動かしてから、必要ならスケールアップを。

FAQ

Llama 70B を動かすのにどれくらい VRAM が必要？

FP16 フル版は 140GB、Q4_K_M 量子化版は 35〜40GB。KV Cache を足すと合計 40〜45GB の空きメモリが必要です。

大規模モデルなら Mac M4 と NVIDIA、どちらが向いている？

推論だけなら Mac（安定・手軽）。ファインチューニングなら NVIDIA（ツールチェーンが充実）。Mac M4 Max は 20〜28 tok/s、RTX 4090 offload は約 18 tok/s。

予算が限られているなら何を買うべき？

予算 $500〜2000 なら RTX 4090 または Mac Mini M4 Pro（7B/13B と一部 32B 向き）。70B Q4 を安定して回すなら 64GB 以上の統合メモリ搭載 Mac、または RTX 3090 2 枚を優先。RTX 5090 は単体カードでの試行には向きますが、offload が必要になる場合があります。$500 未満の中古 5700XT は非推奨。

AMD 5700XT で Llama 70B は動く？

動きません。8GB VRAM では 7B まで。ROCm は RDNA1 を公式サポートしておらず、回避策も不安定です。

Mac では MLX と llama.cpp、どちらを使う？

短いプロンプトは MLX が 30〜50% 速い。長いプロンプトは llama.cpp がやや有利。他プラットフォームとの互換性なら llama.cpp、推論専用なら MLX。

4分で読めます · 公開日: 2026年5月28日 · 更新日: 2026年7月14日

Easton

AI・インテリジェンス

Llama 70B ローカル実行：5700XT・Mac M4・CUDA 3 構成比較と選定ガイド