言語を切り替える
テーマを切り替える

Llama 70B ローカル実行:5700XT・Mac M4・CUDA 3 構成比較と選定ガイド

20-28 tok/s
Mac M4 Max 70B Q4
統合メモリで性能が最も高い
18 tok/s
RTX 4090 70B offload
CPU-GPU 間のデータ移動コスト
~40GB
Q4_K_M の VRAM 要件
KV Cache 込みで約 45GB
数据来源: Reddit LocalLLaMA フォーラムと技術ブログの実測

Llama 70B をローカルで動かしたい?手元の AMD 5700XT 8GB VRAM で足りる?Mac M4 ならどう?

答えは意外かもしれません。70B の FP16 フル版は 140GB VRAM が必要で、一般的なコンシューマ向けハードではほぼ無理です。ただし量子化のおかげで、必要量は 40GB 前後まで下がり、話が一気に現実的になります。

この記事では、3 つのよくある構成を実測ベースで比較します。AMD 5700XT(いじり倒す人向け)、Mac M4(統合メモリの強み)、NVIDIA CUDA(定番エコシステム)。読み終わる頃には、自分に合う選択が 5 分ほどで見えてくるはずです。

Llama 70B の VRAM 要件、本当のところ

量子化は、ざっくり言えばモデルを「圧縮」することです。FP16 では 1 パラメータあたり 2 バイト。700 億パラメータを掛けると 140GB VRAM。RTX 4090 の 24GB でも、全然足りません。

そこで GGUF 形式の量子化版が活躍します。

量子化レベルの選び方

レベルによって VRAM 使用量は大きく変わります。

量子化レベルVRAM 要件精度ロス向いている用途
Q8_0~75GBごく小さい研究・精度重視
Q6_K~55GB小さい64GB 以上のメモリ
Q5_K_M~45GB許容範囲Mac 64GB メモリ
Q4_K_M~35-40GBバランス型多くのコンシューマ向けハード
Q3_K_M~30GB目立つVRAM を極限まで削りたい場合

おすすめは Q4_K_M です。精度と VRAM のバランスがいちばん取りやすい。Q3 でも動きますが、回答品質や論理推論が目に見えて落ちます。Q5 以上はより良い一方、メモリ要件も上がります。

もう 1 つ忘れがちなのが KV Cache です。推論中にコンテキストを保持する分、追加で 5GB 前後必要になります。Q4_K_M を実運用するなら、空き 40〜45GB は見ておきましょう。

3 つのハード構成、実測比較

まず表で整理します。数値は Reddit LocalLLaMA フォーラムと複数の技術ブログの実測をもとにしています。

構成VRAM/メモリ動かせるモデル70B Q4 の性能価格帯設定の難易度
AMD 5700XT8GB VRAM7B は可、12B は一部非推奨中古 $150-200難しい
Mac M4 Max128GB 統合メモリ70B Q4/Q520-28 tok/s$3500+簡単
NVIDIA RTX 409024GB VRAM32B は可、70B は offload18 tok/s (offload)$1500-2000中程度
NVIDIA RTX 509032GB VRAM70B Q4 単体25+ tok/s 見込み$2000+簡単

AMD 5700XT:いじり倒す人の悪夢

正直、5700XT で 70B を動かすのは無理筋です。8GB VRAM では 7B Q4 もギリギリ。70B は論外。それでも ROCm の回避策を試す人はいます——私もやりました。

結果は不安定。起動はできても、いつ落ちるかわかりません。AMD は RDNA1(5700XT が該当)向け ROCm を公式サポートしていません。コミュニティの環境変数上書きに頼る形です。

HSA_OVERRIDE_GFX_VERSION=10.1.0

これで ROCm を動かせるように見せかけられますが、性能も安定性も期待薄。学習目的で触る分にはアリ。本番利用なら別の選択を。

Mac M4:統合メモリが武器

Apple Silicon の統合メモリは、大規模モデル向きです。M4 Max 128GB なら、システム RAM と VRAM が同じプール——「VRAM が足りないから RAM に逃がす」問題を気にしなくて済みます。

実測は 20〜28 tok/s。ローカル推論としてはかなり快適な部類。Ollama や MLX を入れて、数コマンドで動かせます。

欠点は価格。M4 Max は $3500 から。ただし普段 Mac で仕事もするなら、大モデル実行分を上乗せで考えれば、意外と割り切れます。

NVIDIA CUDA:エコシステムは強いが、70B は offload 前提

RTX 4090 の 24GB VRAM なら 32B は余裕。70B は足りません。offload で一部レイヤーを GPU、残りをシステムメモリに載せる必要があります。

動きますが、速度は落ちます。実測 18 tok/s 前後で、Mac M4 Max よりやや遅め。CPU と GPU の間をデータが行ったり来たりするコストがそのまま出ます。

RTX 5090 は 32GB VRAM で、70B Q4 を単体 GPU で回せます。ただし発売時期・価格($2000 前後見込み)は要確認。

CUDA の強みはエコシステム。ファインチューニングなら PyTorch や Hugging Face も CUDA 優先。Apple Silicon や AMD ではこの点で追いつきにくいです。

自分に合う構成の見極め方

迷ったら、次の流れで決めましょう。

ステップ 1:今、何を持っているか

5700XT がある?

  • ROCm の回避策は試せるが、覚悟は必要
  • 現実的には 7B まで(12B も一部 offload)
  • ROCm の仕組みを学びたい・ハマりを楽しめる人向け

Mac がある?

  • メモリ容量を確認:64GB なら 70B Q5、128GB ならより余裕
  • M4 Pro/Max の方が速い。ベース M4 でも動くことは多い
  • まず試す価値あり。成功率は高め

何もない?

  • 次の予算ステップへ

ステップ 2:予算で絞る

予算帯おすすめ補足
<$500中古 5700XT または Mac Mini M4 エントリー5700XT はリスク大。M4 エントリー 16GB は小モデル向け
$500-2000RTX 4090 または Mac Mini M4 Pro4090 は offload 前提。M4 Pro 24GB なら 70B Q4 可
$2000+RTX 5090 または Mac Studio M4 Maxファインチューニングなら NVIDIA。推論だけなら Mac

ステップ 3:何をしたいか

とりあえず触ってみたい?

  • 7B が動くハードで十分。70B にこだわらなくても、ローカル推論の感触はつかめます。

毎日使って、安定重視?

  • Mac M4 系がいちばん楽。CUDA 版や ROCm のバージョン合わせに悩みにくい。

ファインチューニングしたい?

  • NVIDIA CUDA 一択。ツール・チュートリアル・実例が最も多い。

推論速度を最優先?

  • Mac M4 Max なら MLX が llama.cpp より 30〜50% 速いケースあり。後述します。

多くの人は 2 番目——安定して日常利用——に当てはまります。Mac はドライバ地獄や互換性問題が少なく、すぐ使い始められます。

Mac ユーザー向け:MLX と llama.cpp

Mac だけの悩みが、MLX か llama.cpp か。

性能比較

Compute Market の実測をもとに整理します。

シナリオMLXllama.cpp
短いプロンプト (<512 tokens)速い基準MLX が 30〜50% 速い
長いプロンプト (>2048 tokens)基準速いllama.cpp がやや有利
全体の推論速度~25 tok/s~20 tok/sMLX が先行

MLX は Apple Silicon 向けに最適化され、Metal GPU を直接叩けます。llama.cpp はクロスプラットフォームで Metal も使えますが、最適化の深さは MLX に一歩譲ります。

どう選ぶ?

推論だけ、速度重視?

  • MLX。mlx_lm.generate ですぐ試せます。

llama.cpp 依存のツールを使う?

  • 特定のサードパーティツールや、同じ GGUF を複数デバイスで回したいなら llama.cpp。互換性はこちらが上。

迷っている?

  • 両方入れて実際に回す。どちらもインストールは簡単です。

個人的には MLX 派です。用途はローカル推論中心で、速度が最優先。ツールチェーンの互換性は必須ではありません。

まとめ

最後に、早見表です。

あなたの状況おすすめ理由
Mac 所持(64GB+ メモリ)そのまま使う。MLX 推奨いちばん手間が少なく、速度も良い
ハードなし、予算 <$500Mac Mini M4 エントリー5700XT より安定。リスク低
予算 $500-2000、安定重視Mac Mini M4 Pro24GB で 70B Q4 可
予算 $2000+、ファインチューニングRTX 4090/5090CUDA エコシステム
ROCm をいじって学びたい中古 5700XT安いが、落とし穴覚悟

一言で言うと:Mac は手軽で安定、CUDA はエコシステムが広い、AMD は安いが手間が多い

本気で使うなら設定いじりを避けたい——Mac。予算は厳しいがハマりを楽しめる——5700XT は試す価値はあるが、70B への期待は下げて。ファインチューニングする——NVIDIA CUDA。

試すなら、Mac があれば Ollama か MLX で 7B から。Mac がなければ、今のハードで小モデルが回るか先に確認を。70B はゴールであってスタート地点ではありません。まず動かしてから、必要ならスケールアップを。

FAQ

Llama 70B を動かすのにどれくらい VRAM が必要?
FP16 フル版は 140GB、Q4_K_M 量子化版は 35〜40GB。KV Cache を足すと合計 40〜45GB の空きメモリが必要です。
大規模モデルなら Mac M4 と NVIDIA、どちらが向いている?
推論だけなら Mac(安定・手軽)。ファインチューニングなら NVIDIA(ツールチェーンが充実)。Mac M4 Max は 20〜28 tok/s、RTX 4090 offload は約 18 tok/s。
予算が限られているなら何を買うべき?
予算 $500〜2000 なら Mac Mini M4 Pro(24GB メモリで 70B Q4 可)。$2000 以上でファインチューニングなら RTX 4090/5090。$500 未満の中古 5700XT は非推奨。
AMD 5700XT で Llama 70B は動く?
動きません。8GB VRAM では 7B まで。ROCm は RDNA1 を公式サポートしておらず、回避策も不安定です。
Mac では MLX と llama.cpp、どちらを使う?
短いプロンプトは MLX が 30〜50% 速い。長いプロンプトは llama.cpp がやや有利。他プラットフォームとの互換性なら llama.cpp、推論専用なら MLX。

4分で読めます · 公開日: 2026年5月28日 · 更新日: 2026年6月8日

関連記事

コメント

GitHubアカウントでログインしてコメントできます