Llama 70B ローカル実行:5700XT、Mac M4、CUDA の3つの手法を比較・選定ガイド
Llama 70B をローカルで実行したいと思いませんか?手元の AMD 5700XT の 8GB VRAM で足りるでしょうか?Mac M4 なら実行できるでしょうか?
答えは意外かもしれません。70B モデルの FP16 完全版は 140GB の VRAM を必要とします。これはコンシューマーレベルのハードウェアでは「ほぼ不可能」です。しかし、量子化技術により、この要件は約 40GB まで引き下げられ、突然状況が面白くなってきました。
この記事では、3つの一般的な手法を実測データで比較します:AMD 5700XT(マニアに人気)、Mac M4(統合メモリの圧倒的優位性)、そして NVIDIA CUDA(エコシステムの王者)。読み終わる頃には、どれが自分に適しているか、約5分で判断できるでしょう。
Llama 70B の VRAM要件の真実
量子化とは、簡単に言えばモデルを「圧縮」することです。元の FP16 版では、各パラメータが 2 バイトを占めます。70億パラメータを掛けると——140GB の VRAM です。手元に RTX 4090 の 24GB があっても、まるで足りません。
どうすればいいのでしょうか?GGUF 形式の量子化版が登場します。
どの量子化レベルを選ぶべき?
量子化レベルによって、VRAM 使用量は大きく異なります:
| 量子化レベル | VRAM要件 | 精度低下 | 適用シナリオ |
|---|---|---|---|
| Q8_0 | ~75GB | 極小 | 研究実験、精度重視 |
| Q6_K | ~55GB | 小 | 64GB+ メモリあり |
| Q5_K_M | ~45GB | 許容範囲 | Mac 64GB メモリ |
| Q4_K_M | ~35-40GB | バランス点 | ほとんどのコンシューマーハードウェア |
| Q3_K_M | ~30GB | 顕著 | VRAM 極限圧縮 |
お勧めは Q4_K_M です。なぜなら?このレベルは精度と VRAM のバランスが非常に良いからです。Q3 も実行できると聞くかもしれませんが、精度低下がかなり顕著です——回答品質が下がり、論理推論能力も低下します。Q5 以上は確かにより良いですが、VRAM 要件も上がってしまいます。
もう一つ忘れてはいけないもの:KV Cache です。推論中、モデルはコンテキスト情報を保存する必要があり、これが追加で約 5GB を占めます。したがって、実際に Q4_K_M 版を実行するには、約 40-45GB の利用可能メモリスペースが必要です。
3つのハードウェア手法を実測比較
まず表を見てみましょう。データは Reddit LocalLLaMA フォーラムと複数の技術ブログの実測レポートから引用しています。
| 手法 | VRAM/メモリ | 実行可能モデル | 70B Q4 パフォーマンス | 価格範囲 | 設定難易度 |
|---|---|---|---|---|---|
| AMD 5700XT | 8GB VRAM | 7B 完全、12B 部分 | お勧めしない | 中古 $150-200 | 困難 |
| Mac M4 Max | 128GB 統合メモリ | 70B Q4/Q5 | 20-28 tok/s | $3500+ | 簡単 |
| NVIDIA RTX 4090 | 24GB VRAM | 32B 完全、70B offload | 18 tok/s (offload) | $1500-2000 | 中程度 |
| NVIDIA RTX 5090 | 32GB VRAM | 70B Q4 シングルカード | 予想 25+ tok/s | $2000+ | 簡単 |
AMD 5700XT:マニアの悪夢
正直なところ、5700XT で 70B モデルを実行するのは「無理やりやる」ようなものです。8GB VRAM では、7B Q4 でさえやっと入ります。70B はまず無理です。それでも諦めない人もいます——私自身、ROCm の回避策を試しました。
結果は?不安定です。実行できますが、いつクラッシュするかわかりません。AMD は RDNA1 アーキテクチャ(5700XT はこれに該当)を ROCm で正式サポートしていません。コミュニティが見つけた環境変数オーバーライドに頼っています:
HSA_OVERRIDE_GFX_VERSION=10.1.0
この方法で ROCm を騙して実行できますが、パフォーマンスは普通、安定性も悪いです。ただ勉強のために試してみたいなら、やってみる価値はあります。まともに使いたいなら?やめておきましょう。
Mac M4:統合メモリこそが切り札
Apple Silicon の統合メモリアーキテクチャは、大規模モデルを実行する上で画期的です。128GB の M4 Max では、システムメモリと VRAM が同じブロックです——「VRAM が足りなくてメモリに offload する」という心配がありません。
実測データは素晴らしい:20-28 tok/s。この速度は、ローカル推論としては非常に快適です。さらに設定が簡単で、Ollama をインストールするか、MLX を直接使えば、数行のコマンドで実行できます。
唯一の問題は価格です。M4 Max は $3500+ から始まります。決して安くありません。しかし、もともと他の作業のために Mac が必要で、ついでに大規模モデルも実行したい——そう考えると、コストパフォーマンスは悪くありません。
NVIDIA CUDA:エコシステムは成熟しているが、大規模モデルは offload 必須
RTX 4090 の 24GB VRAM は、32B モデルには十分です。70B は?足りません。offload 方式を使う必要があります——一部の層を GPU に置き、残りをシステムメモリに移します。
この方法で実行できますが、速度は低下します。実測では約 18 tok/s で、Mac M4 Max より少し遅いです。CPU と GPU の間でデータをやり取りするオーバーヘッドがあるからです。
RTX 5090 の 32GB VRAM なら状況は良くなります。70B Q4 はシングルカードで実行可能です。ただ、このカードはまだ正式発表されておらず、価格は $2000 からと予想されます。
CUDA の優位性はエコシステムの成熟度です。モデルをファインチューニングしたい?NVIDIA のツールチェーンが最も充実しています。PyTorch、Hugging Face はすべて CUDA を優先サポートしています。この点で Apple Silicon も AMD もかないません。
どの手法が自分に適しているかを判断する方法
迷う必要はありません。以下の流れで段階的に判断していきましょう:
ステップ1:手元にあるものを確認
すでに 5700XT を持っている?
- ROCm 回避策を試すことはできますが、トラブルに備えてください
- 実際に実行できるのは 7B モデルのみ(12B も部分的に offload 必要)
- ROCm の仕組みを学びたい、トラブル解決を楽しむ人に適しています
すでに Mac を持っている?
- メモリサイズを確認:64GB で 70B Q5 が実行可能、128GB ならさらに快適
- M4 Pro/Max の方が高性能ですが、M4 ベースモデルも使用可能
- そのまま試してみてください、成功率は高いです
何も持っていない?
- 次に予算状況を見てみましょう
ステップ2:予算で選択
| 予算範囲 | 推奨手法 | 説明 |
|---|---|---|
| <$500 | 中古 5700XT または Mac Mini M4 エントリー版 | 5700XT はリスクが高い、M4 エントリー版の 16GB メモリでは小規模モデルのみ |
| $500-2000 | RTX 4090 または Mac Mini M4 Pro | RTX 4090 は offload 必要、M4 Pro の 24GB メモリで 70B が実行可能 |
| $2000+ | RTX 5090 または Mac Studio M4 Max | ファインチューニングが必要かどうかで選択——ファインチューニングなら NVIDIA、推論のみなら Mac |
ステップ3:何をしたいか?
ただ試してみたい、遊んでみたい?
- 7B が実行できるハードウェアで十分です。70B で苦労する必要はなく、小規模モデルでローカル推論の感覚を体験できます。
日常的に使用し、安定性が必要?
- Mac M4 シリーズが最も手間がかかりません。ソフトウェアをインストールするだけで使え、CUDA バージョンや ROCm 設定を気にする必要がありません。
ファインチューニングが必要?
- NVIDIA CUDA 一択です。エコシステムのサポートが最も充実しており、チュートリアルも多く、落とし穴も少ないです。
最高の推論速度を追求?
- Mac M4 Max の MLX アクセラレーションは llama.cpp より 30-50% 高速です。この点は後で詳しく説明します。
実際には、ほとんどの人は2番目に該当します——日常使用で安定性が必要。この点で Mac は明らかに優位です。グラフィックドライバーのトラブルに悩むことも、互換性の問題を心配することもなく、すぐに使えます。
Mac ユーザーの MLX と llama.cpp の選択
Mac ユーザーにはもう一つ迷う点があります:MLX か llama.cpp か?
パフォーマンス比較
Compute Market の実測データによると:
| シナリオ | MLX | llama.cpp | 差 |
|---|---|---|---|
| 短いプロンプト (<512 tokens) | 高速 | 普通 | MLX が 30-50% 高速 |
| 長いプロンプト (>2048 tokens) | ベースライン | やや高速 | llama.cpp がやや優秀 |
| 全体的な推論速度 | ~25 tok/s | ~20 tok/s | MLX がリード |
MLX は Apple が Silicon チップのために最適化したフレームワークで、Metal GPU アクセラレーションを直接呼び出せます。llama.cpp はクロスプラットフォームの手法で、Metal もサポートしていますが、MLX ほどではありません。
どう選ぶ?
推論のみで速度重視?
- MLX を使いましょう。
mlx_lm.generateコマンドで実行でき、設定が簡単で高速です。
llama.cpp ツールチェーンとの互換性が必要?
- 例えば、llama.cpp に依存するサードパーティツールを使いたい場合、あるいは同じ GGUF ファイルを異なるデバイス間で移動したい——なら llama.cpp です。互換性が良く、ほぼすべてのプラットフォームで実行できます。
迷っている?
- 両方試してみてください。どちらもインストールは複雑ではありません。実際に実行してみれば、どちらが自分の使用習慣に合っているかわかります。
私は MLX に傾いています。私の主な使用シナリオはローカル推論なので、速度が速ければ十分です。ツールチェーンの互換性は私にとって必須ではありません。
まとめ
いろいろ説明しましたが、最後にクイック決定表をまとめます:
| あなたの状況 | 推奨手法 | 理由 |
|---|---|---|
| 既に Mac を所有(64GB+ メモリ) | そのまま使用、MLX を選択 | 最も手間がかからず、速度も良好 |
| ハードウェアなし、予算 <$500 | Mac Mini M4 エントリー版 | 5700XT より安定、リスクが低い |
| 予算 $500-2000、安定性重視 | Mac Mini M4 Pro | 24GB メモリで 70B が実行可能 |
| 予算 $2000+、ファインチューニング必要 | RTX 4090/5090 | CUDA エコシステムが成熟 |
| ROCm を学びたい、トラブル解決を楽しむ | 中古 5700XT | 安いが、トラブルに備えて |
核心的な結論は一言:Mac は手間がかからず安定、CUDA はエコシステムが充実、AMD はコスパが高いがトラブルが多い。
「まともに使いたい」ニーズで、設定に時間をかけたくない——Mac を選んでください。予算が限られていてトラブル解決も厭わない——5700XT を試す価値はありますが、70B にはあまり期待しないでください。モデルのファインチューニングをしたい——NVIDIA CUDA 一択です。
手を動かしてみたい?Mac を持っているなら、Ollama または MLX をインストールして、7B モデルを実行して体験してみてください。Mac を持っていないなら、まず自分の既存ハードウェアで小規模モデルを実行できるか確認しましょう——70B はスタート地点ではありません。まず実行できるようになってから考えましょう。
FAQ
Llama 70B の実行にはどのくらいの VRAM が必要?
Mac M4 と NVIDIA どちらが大規模モデルに適している?
予算が限られている場合、どのハードウェアを選ぶべき?
AMD 5700XT で Llama 70B を実行できる?
Mac で MLX と llama.cpp のどちらを使うべき?
5 min read · 公開日: 2026年5月28日 · 更新日: 2026年5月31日
Ollama ローカル LLM 実践ガイド
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
Ollama API 呼び出し:curl から OpenAI SDK 互換インターフェースまで
Ollama API の2つの呼び出し方法を学ぶ:ネイティブ REST API(curl)と OpenAI SDK 互換インターフェース。完全なコード例、ストリーミングレスポンス処理、ベストプラクティスガイド付き
第 5 / 18 記事
次の記事
Ollama + Open WebUI: ローカルでChatGPTライクなインターフェースを構築(完全ガイド)
OllamaとOpen WebUIを使ってローカル環境にChatGPT風のAI対話インターフェースを構築する手順を解説。インストール、モデル選択、RAG知識ベース、API連携、パフォーマンスチューニングまで、30分でローカルAIアシスタントを構築
第 7 / 18 記事
関連記事
Ollama 入門:ローカルで大規模言語モデルを実行する第一歩
Ollama 入門:ローカルで大規模言語モデルを実行する第一歩
Ollama モデル管理完全ガイド:ダウンロード、切り替え、削除とバージョン管理
Ollama モデル管理完全ガイド:ダウンロード、切り替え、削除とバージョン管理
Ollama Modelfile パラメータ詳解:カスタムモデル作成の完全ガイド
コメント
GitHubアカウントでログインしてコメントできます