言語を切り替える
テーマを切り替える

Llama 70B ローカル実行:5700XT、Mac M4、CUDA の3つの手法を比較・選定ガイド

20-28 tok/s
Mac M4 Max 70B Q4
統合メモリアーキテクチャで最高パフォーマンス
18 tok/s
RTX 4090 70B offload
CPU-GPU 間のデータ転送オーバーヘッド
~40GB
Q4_K_M VRAM要件
KV Cache 含む約 45GB
数据来源: Reddit LocalLLaMA フォーラムと技術ブログの実測データ

Llama 70B をローカルで実行したいと思いませんか?手元の AMD 5700XT の 8GB VRAM で足りるでしょうか?Mac M4 なら実行できるでしょうか?

答えは意外かもしれません。70B モデルの FP16 完全版は 140GB の VRAM を必要とします。これはコンシューマーレベルのハードウェアでは「ほぼ不可能」です。しかし、量子化技術により、この要件は約 40GB まで引き下げられ、突然状況が面白くなってきました。

この記事では、3つの一般的な手法を実測データで比較します:AMD 5700XT(マニアに人気)、Mac M4(統合メモリの圧倒的優位性)、そして NVIDIA CUDA(エコシステムの王者)。読み終わる頃には、どれが自分に適しているか、約5分で判断できるでしょう。

Llama 70B の VRAM要件の真実

量子化とは、簡単に言えばモデルを「圧縮」することです。元の FP16 版では、各パラメータが 2 バイトを占めます。70億パラメータを掛けると——140GB の VRAM です。手元に RTX 4090 の 24GB があっても、まるで足りません。

どうすればいいのでしょうか?GGUF 形式の量子化版が登場します。

どの量子化レベルを選ぶべき?

量子化レベルによって、VRAM 使用量は大きく異なります:

量子化レベルVRAM要件精度低下適用シナリオ
Q8_0~75GB極小研究実験、精度重視
Q6_K~55GB64GB+ メモリあり
Q5_K_M~45GB許容範囲Mac 64GB メモリ
Q4_K_M~35-40GBバランス点ほとんどのコンシューマーハードウェア
Q3_K_M~30GB顕著VRAM 極限圧縮

お勧めは Q4_K_M です。なぜなら?このレベルは精度と VRAM のバランスが非常に良いからです。Q3 も実行できると聞くかもしれませんが、精度低下がかなり顕著です——回答品質が下がり、論理推論能力も低下します。Q5 以上は確かにより良いですが、VRAM 要件も上がってしまいます。

もう一つ忘れてはいけないもの:KV Cache です。推論中、モデルはコンテキスト情報を保存する必要があり、これが追加で約 5GB を占めます。したがって、実際に Q4_K_M 版を実行するには、約 40-45GB の利用可能メモリスペースが必要です。

3つのハードウェア手法を実測比較

まず表を見てみましょう。データは Reddit LocalLLaMA フォーラムと複数の技術ブログの実測レポートから引用しています。

手法VRAM/メモリ実行可能モデル70B Q4 パフォーマンス価格範囲設定難易度
AMD 5700XT8GB VRAM7B 完全、12B 部分お勧めしない中古 $150-200困難
Mac M4 Max128GB 統合メモリ70B Q4/Q520-28 tok/s$3500+簡単
NVIDIA RTX 409024GB VRAM32B 完全、70B offload18 tok/s (offload)$1500-2000中程度
NVIDIA RTX 509032GB VRAM70B Q4 シングルカード予想 25+ tok/s$2000+簡単

AMD 5700XT:マニアの悪夢

正直なところ、5700XT で 70B モデルを実行するのは「無理やりやる」ようなものです。8GB VRAM では、7B Q4 でさえやっと入ります。70B はまず無理です。それでも諦めない人もいます——私自身、ROCm の回避策を試しました。

結果は?不安定です。実行できますが、いつクラッシュするかわかりません。AMD は RDNA1 アーキテクチャ(5700XT はこれに該当)を ROCm で正式サポートしていません。コミュニティが見つけた環境変数オーバーライドに頼っています:

HSA_OVERRIDE_GFX_VERSION=10.1.0

この方法で ROCm を騙して実行できますが、パフォーマンスは普通、安定性も悪いです。ただ勉強のために試してみたいなら、やってみる価値はあります。まともに使いたいなら?やめておきましょう。

Mac M4:統合メモリこそが切り札

Apple Silicon の統合メモリアーキテクチャは、大規模モデルを実行する上で画期的です。128GB の M4 Max では、システムメモリと VRAM が同じブロックです——「VRAM が足りなくてメモリに offload する」という心配がありません。

実測データは素晴らしい:20-28 tok/s。この速度は、ローカル推論としては非常に快適です。さらに設定が簡単で、Ollama をインストールするか、MLX を直接使えば、数行のコマンドで実行できます。

唯一の問題は価格です。M4 Max は $3500+ から始まります。決して安くありません。しかし、もともと他の作業のために Mac が必要で、ついでに大規模モデルも実行したい——そう考えると、コストパフォーマンスは悪くありません。

NVIDIA CUDA:エコシステムは成熟しているが、大規模モデルは offload 必須

RTX 4090 の 24GB VRAM は、32B モデルには十分です。70B は?足りません。offload 方式を使う必要があります——一部の層を GPU に置き、残りをシステムメモリに移します。

この方法で実行できますが、速度は低下します。実測では約 18 tok/s で、Mac M4 Max より少し遅いです。CPU と GPU の間でデータをやり取りするオーバーヘッドがあるからです。

RTX 5090 の 32GB VRAM なら状況は良くなります。70B Q4 はシングルカードで実行可能です。ただ、このカードはまだ正式発表されておらず、価格は $2000 からと予想されます。

CUDA の優位性はエコシステムの成熟度です。モデルをファインチューニングしたい?NVIDIA のツールチェーンが最も充実しています。PyTorch、Hugging Face はすべて CUDA を優先サポートしています。この点で Apple Silicon も AMD もかないません。

どの手法が自分に適しているかを判断する方法

迷う必要はありません。以下の流れで段階的に判断していきましょう:

ステップ1:手元にあるものを確認

すでに 5700XT を持っている?

  • ROCm 回避策を試すことはできますが、トラブルに備えてください
  • 実際に実行できるのは 7B モデルのみ(12B も部分的に offload 必要)
  • ROCm の仕組みを学びたい、トラブル解決を楽しむ人に適しています

すでに Mac を持っている?

  • メモリサイズを確認:64GB で 70B Q5 が実行可能、128GB ならさらに快適
  • M4 Pro/Max の方が高性能ですが、M4 ベースモデルも使用可能
  • そのまま試してみてください、成功率は高いです

何も持っていない?

  • 次に予算状況を見てみましょう

ステップ2:予算で選択

予算範囲推奨手法説明
<$500中古 5700XT または Mac Mini M4 エントリー版5700XT はリスクが高い、M4 エントリー版の 16GB メモリでは小規模モデルのみ
$500-2000RTX 4090 または Mac Mini M4 ProRTX 4090 は offload 必要、M4 Pro の 24GB メモリで 70B が実行可能
$2000+RTX 5090 または Mac Studio M4 Maxファインチューニングが必要かどうかで選択——ファインチューニングなら NVIDIA、推論のみなら Mac

ステップ3:何をしたいか?

ただ試してみたい、遊んでみたい?

  • 7B が実行できるハードウェアで十分です。70B で苦労する必要はなく、小規模モデルでローカル推論の感覚を体験できます。

日常的に使用し、安定性が必要?

  • Mac M4 シリーズが最も手間がかかりません。ソフトウェアをインストールするだけで使え、CUDA バージョンや ROCm 設定を気にする必要がありません。

ファインチューニングが必要?

  • NVIDIA CUDA 一択です。エコシステムのサポートが最も充実しており、チュートリアルも多く、落とし穴も少ないです。

最高の推論速度を追求?

  • Mac M4 Max の MLX アクセラレーションは llama.cpp より 30-50% 高速です。この点は後で詳しく説明します。

実際には、ほとんどの人は2番目に該当します——日常使用で安定性が必要。この点で Mac は明らかに優位です。グラフィックドライバーのトラブルに悩むことも、互換性の問題を心配することもなく、すぐに使えます。

Mac ユーザーの MLX と llama.cpp の選択

Mac ユーザーにはもう一つ迷う点があります:MLX か llama.cpp か?

パフォーマンス比較

Compute Market の実測データによると:

シナリオMLXllama.cpp
短いプロンプト (<512 tokens)高速普通MLX が 30-50% 高速
長いプロンプト (>2048 tokens)ベースラインやや高速llama.cpp がやや優秀
全体的な推論速度~25 tok/s~20 tok/sMLX がリード

MLX は Apple が Silicon チップのために最適化したフレームワークで、Metal GPU アクセラレーションを直接呼び出せます。llama.cpp はクロスプラットフォームの手法で、Metal もサポートしていますが、MLX ほどではありません。

どう選ぶ?

推論のみで速度重視?

  • MLX を使いましょう。mlx_lm.generate コマンドで実行でき、設定が簡単で高速です。

llama.cpp ツールチェーンとの互換性が必要?

  • 例えば、llama.cpp に依存するサードパーティツールを使いたい場合、あるいは同じ GGUF ファイルを異なるデバイス間で移動したい——なら llama.cpp です。互換性が良く、ほぼすべてのプラットフォームで実行できます。

迷っている?

  • 両方試してみてください。どちらもインストールは複雑ではありません。実際に実行してみれば、どちらが自分の使用習慣に合っているかわかります。

私は MLX に傾いています。私の主な使用シナリオはローカル推論なので、速度が速ければ十分です。ツールチェーンの互換性は私にとって必須ではありません。

まとめ

いろいろ説明しましたが、最後にクイック決定表をまとめます:

あなたの状況推奨手法理由
既に Mac を所有(64GB+ メモリ)そのまま使用、MLX を選択最も手間がかからず、速度も良好
ハードウェアなし、予算 <$500Mac Mini M4 エントリー版5700XT より安定、リスクが低い
予算 $500-2000、安定性重視Mac Mini M4 Pro24GB メモリで 70B が実行可能
予算 $2000+、ファインチューニング必要RTX 4090/5090CUDA エコシステムが成熟
ROCm を学びたい、トラブル解決を楽しむ中古 5700XT安いが、トラブルに備えて

核心的な結論は一言:Mac は手間がかからず安定、CUDA はエコシステムが充実、AMD はコスパが高いがトラブルが多い

「まともに使いたい」ニーズで、設定に時間をかけたくない——Mac を選んでください。予算が限られていてトラブル解決も厭わない——5700XT を試す価値はありますが、70B にはあまり期待しないでください。モデルのファインチューニングをしたい——NVIDIA CUDA 一択です。

手を動かしてみたい?Mac を持っているなら、Ollama または MLX をインストールして、7B モデルを実行して体験してみてください。Mac を持っていないなら、まず自分の既存ハードウェアで小規模モデルを実行できるか確認しましょう——70B はスタート地点ではありません。まず実行できるようになってから考えましょう。

FAQ

Llama 70B の実行にはどのくらいの VRAM が必要?
FP16 完全版は 140GB 必要ですが、Q4_K_M 量子化版は 35-40GB で、KV Cache を含めると 40-45GB の利用可能メモリが必要です。
Mac M4 と NVIDIA どちらが大規模モデルに適している?
推論のみなら Mac(安定して簡単)、ファインチューニングなら NVIDIA(エコシステムが充実)。Mac M4 Max は 20-28 tok/s、RTX 4090 offload は約 18 tok/s。
予算が限られている場合、どのハードウェアを選ぶべき?
予算 $500-2000 なら Mac Mini M4 Pro(24GB メモリで 70B Q4 が実行可能)、予算 $2000+ でファインチューニング必要なら RTX 4090/5090、$500 以下なら中古 5700XT はお勧めしません。
AMD 5700XT で Llama 70B を実行できる?
できません。8GB VRAM では 7B モデルのみ実行可能で、ROCm は RDNA1 アーキテクチャを正式サポートしておらず、回避策は不安定です。
Mac で MLX と llama.cpp のどちらを使うべき?
短いプロンプトなら MLX が 30-50% 高速、長いプロンプトなら llama.cpp がやや優秀。他プラットフォームとの互換性が必要なら llama.cpp、推論のみなら MLX。

5 min read · 公開日: 2026年5月28日 · 更新日: 2026年5月31日

関連記事

コメント

GitHubアカウントでログインしてコメントできます