Ollama GPU アクセラレーション設定:CUDA・ROCm・Metal 全プラットフォーム実践ガイド
7B モデルを初めてローカルで動かしたとき、CPU だけで回していました。体感としては……1 秒に 2 文字も出ない。一文が終わるまでにコーヒーが半分飲めるくらいの時間。RTX 3080 に替えて同じモデル・同じ設定にしたら、40 トークン/秒超え——差はおよそ 50 倍。
これだけではありません。モデルが大きくなったり、コンテキストが長くなったり、多ターン対話になると、CPU では現実的ではなくなります。GPU アクセラレーションは「あると快適」ではなく、「使えるかどうか」の境界線です。
PC に GPU があるなら——NVIDIA、AMD、Apple Silicon のどれでも——Ollama の加速に使える可能性が高いです。ただし設定方法と落とし穴はプラットフォームごとに違います。NVIDIA はドライバーを入れるだけで済む。AMD は ROCm の設定が必要で、Windows では Vulkan が必要。Mac は何もしなくてよい——これが一番ラクです。
この記事では、3 大プラットフォームの設定方法、よくある落とし穴、トラブルシューティングの考え方をまとめて解説します。
GPU アクセラレーションが重要な理由
まず数字から。実測ベースで、7B モデルの推論速度はハードウェアによって大きく異なります。
| アクセラレーション方式 | 典型性能(7B モデル) | 向いている用途 |
|---|---|---|
| CPU のみ | 0.5〜2 トークン/秒 | テスト、デバッグ |
| NVIDIA CUDA | 30〜80 トークン/秒 | 日常利用、本番 |
| Apple Metal | 20〜50 トークン/秒 | Mac ユーザー |
| AMD ROCm | 25〜60 トークン/秒 | Linux AMD ユーザー |
なぜこんなに差が出るのか。一言でいえば、GPU は「同じ計算の繰り返し」が得意だからです。大規模モデルの推論は、本質的に行列積の連続——数千億回の行列積です。CPU でやるのは、博士号を持った人に算数問題を 1 問ずつ解かせるようなもの。正確だが遅い。GPU は数千の小さな演算ユニットが分担する。1 個あたりの知能は低くても、数の力で圧倒します。
もう 1 点、メモリ帯域幅。推論速度は、データを計算ユニットにどれだけ速く届けられるかに大きく左右されます。GPU のメモリ帯域幅は CPU の数倍が普通——RTX 3080 は 912 GB/s、一般的な DDR4 は 50 GB/s 前後。データが渋滞すれば、計算が速くても意味がありません。
では GPU が必要なのはいつか。基本的に 7B より大きいモデルを動かすなら必須です。チャット、コード生成、長文生成——GPU なしでは体験がかなり厳しくなります。たまに触る程度、小さなモデルのデバッグなら CPU でもなんとかなります。
NVIDIA CUDA 設定の実践
NVIDIA が最も手間が少ない選択肢です。エコシステムが成熟し、ドキュメントも充実、コミュニティの知見も豊富——つまずきポイントはすでに多くの人が踏んできています。
ハードウェアとドライバー要件
すべての NVIDIA GPU が使えるわけではありません。Ollama は Compute Capability 5.0 以上を要求します。ざっくりとした対応表は次のとおり。
| Compute Capability | 代表 GPU | 対応 |
|---|---|---|
| 8.9 | RTX 4090/4080/4070 | 最適 |
| 8.6 | RTX 3090/3080/3070 | 最適 |
| 7.5 | RTX 2080 Ti/2080 | 最適 |
| 6.1 | GTX 1080 Ti/1080 | 利用可 |
| 5.2 | GTX 980 Ti/980 | 利用可 |
| 5.0 未満 | GTX 7xx 以前 | 非対応 |
ドライバーバージョンにも下限があります。公式要件は Windows 531 以上、Linux 535 以上。古すぎると CUDA が動きません。
検証とインストール手順
まず GPU が OS に認識されているか確認します。ターミナルで次を実行:
nvidia-smi
GPU 情報、ドライバーバージョン、CUDA バージョンが表示されれば OK。command not found なら、ドライバー未インストールかパスの問題です。
Ollama はインストール後、CUDA を自動検出します。追加設定は不要で、ドライバーが正常ならそのまま使えます。モデルを動かして確認:
ollama run llama3.2
ollama ps
ollama ps の出力例:
ID MODEL SIZE PROCESSOR UNTIL
abc123 llama3.2:7b 4.7 GB 100% GPU 2 minutes from now
CPU と表示される場合は、何か問題があります。
よくある落とし穴
ドライバーバージョンが古い。NVIDIA 公式サイトから最新版を入れてください。Linux ではディストリビューション標準の古いドライバーを誤って使わないよう注意。
CUDA Toolkit がない。Ollama はフル CUDA Toolkit を必要としません。組み込みの簡易版で動きます。ただし特殊な環境では CUDA runtime の手動インストールが必要なことも。Linux では例えば:
# Ubuntu/Debian
sudo apt install nvidia-cuda-toolkit
コンテナで Ollama を動かす。Docker 利用時は --gpus all で GPU をコンテナに渡す必要があります:
docker run --gpus all ollama/ollama
AMD ROCm 設定の実践
AMD ユーザーは手間がかかります。ROCm(AMD 版 CUDA)は CUDA ほど成熟していませんが、ここ 2 年は大きく改善されています。Linux なら比較的スムーズ、Windows は迂回が必要です。
対応 AMD GPU は?
ROCm は RDNA アーキテクチャのサポートが最も充実しています。
| アーキテクチャ | シリーズ | サポート度 |
|---|---|---|
| RDNA3 | RX 7900 XTX/XT、RX 7800/7700 | 最良 |
| RDNA2 | RX 6800/6700/6600 | 良好 |
| RDNA1 | RX 5700/5600/5500 | 基本利用可 |
| GCN | RX Vega、RX 500/400 | 公式非保証 |
RX 7000 と 6000 シリーズなら問題なし。5000 シリーズはギリギリ使える程度。それより古い GPU は期待しない方がよいです。
Linux での ROCm インストール
Ubuntu/Debian ユーザーは次の手順:
# システム対応を確認
sudo apt update
# ROCm コアをインストール
sudo apt install rocm-dkms rocm-dev rocm-libs
# HIP runtime をインストール
sudo apt install hip-runtime-amd
# インストールを検証
rocminfo
rocminfo で GPU 情報が見えれば成功。一度再起動して、カーネルモジュールを読み込ませてください。
Ollama はインストール後、ROCm を自動検出します。CUDA と同様、追加設定は不要です。
Windows ユーザーは?
ROCm の Windows サポートはまだ開発中です。代替として Vulkan があります。環境変数を設定するだけ:
# Windows PowerShell
$env:OLLAMA_VULKAN = "1"
ollama run llama3.2
Vulkan は ROCm ほど速くはありませんが、動きます。実測では ROCm の 70〜80% 程度の速度です。
マルチ GPU の選択
AMD GPU が複数ある場合、使う GPU を指定できます:
# 1 枚目の GPU のみ使用
export ROCR_VISIBLE_DEVICES=0
# 1 枚目と 3 枚目を使用
export ROCR_VISIBLE_DEVICES=0,2
性能比較
AMD 公式とコミュニティのベンチマークによると、RX 7900 XTX(AMD フラッグシップ)で 7B モデルは 35〜45 トークン/秒、RTX 4090(NVIDIA フラッグシップ)は 50〜70 トークン/秒。差はありますが、価格差の方が大きい——7900 XTX は約 40% 安い。
コスパ重視なら、AMD ユーザーにとって ROCm を設定する価値は十分あります。
Apple Metal:ゼロ設定の体験
Mac ユーザーが最もラクです。Ollama の Apple Silicon サポートはゼロ設定——インストールして実行するだけで、GPU アクセラレーションが自動で有効になります。
対応 Mac は?
Apple Silicon Mac はすべて対応:
- M1 / M1 Pro / M1 Max / M1 Ultra
- M2 / M2 Pro / M2 Max / M2 Ultra
- M3 / M3 Pro / M3 Max
- M4 シリーズ
Intel Mac は Metal アクセラレーション非対応で、CPU のみです。Intel Mac はそろそろ買い替え時期かもしれません。
自動検出の仕組み
Ollama 起動時に Metal を自動検出します。設定ファイル、環境変数、ドライバーインストールは不要——Apple が Metal を OS に深く統合しているからです。
確認方法:
ollama run llama3.2
ollama ps
GPU と表示されるはず:
PROCESSOR: 100% GPU
CPU と出る場合は問題がありますが、Mac ではかなり稀です。
おおよその性能
M2 ベースモデルで 7B モデルは 25〜35 トークン/秒。Pro/Max は GPU コア数が多い分、さらに速い。M2 Max なら 45 トークン/秒前後——中級 NVIDIA カードと同等です。
1 点注意:Apple Silicon はユニファイドメモリ——GPU と CPU がシステムメモリを共有します。VRAM 上限がない反面、大規模モデルはメモリを大量に消費します。M2 8GB なら 7B はなんとか、14B は厳しく、70B は現実的ではありません。
よくある誤解
Metal の設定が必要だと思う人がいますが、完全に不要です。Ollama 公式コードに Metal 検出ロジックが組み込まれており、インストール後に自動有効になります。
ROCm や CUDA を Mac に入れる必要があるか、という質問もありますが——Mac では不要です。Metal は Apple 独自の技術で、OS に標準搭載されています。
マルチ GPU と VRAM 管理
GPU が複数ある、または VRAM が足りない場合、このセクションが重要になります。
レイヤー分散の仕組み
大規模モデル全体が GPU 上で動くわけではありません。多数の「レイヤー」に分かれ、GPU が一部、残りは CPU が担当します。この比率は動的に計算され——Ollama が利用可能 VRAM に応じて、GPU に載せるレイヤー数を自動決定します。
例:7B モデルは約 80 レイヤー。GPU VRAM が 8GB なら、60 レイヤーが GPU、20 レイヤーが CPU になることも。VRAM が足りなければ、より多くのレイヤーがシステムメモリに溢れます。
Pack と Spread モード
マルチ GPU 環境には 2 つの戦略があります。
- Pack モード(デフォルト):1 枚の GPU にできるだけ詰め込み、溢れた分を別 GPU へ。2 枚の性能差が大きい場合向き。
- Spread モード:全 GPU に均等分散。2 枚の性能が近い場合向き。
Spread モードを有効にする:
export OLLAMA_SCHED_SPREAD=1
正直、多くの人はデフォルトの Pack モードで十分です。Spread は VRAM 利用率にメリットがありますが、設定とチューニングに経験が要ります。
VRAM が足りないとき
大規模モデルで最も悩ましいのが VRAM 不足。対処法は次のとおり。
1. 量子化モデルを使う。Q4_K_M 量子化なら、7B モデルの VRAM を 14GB から 4GB 前後に圧縮でき、性能低下は 5〜10% 程度。コスパが非常に良い。
# 量子化版を取得
ollama pull llama3.2:7b-q4_K_M
2. コンテキスト長を短くする。長い対話や大きなドキュメントは VRAM を大量消費します。シンプルな Q&A なら、短いコンテキストで問題ありません。
3. マルチ GPU で分散。8GB カード 2 枚は、16GB カード 1 枚より使いやすい場合も——各カードに独立した演算ユニットがあるからです。
動的割り当てのロジック
Ollama がこれらを自動管理するため、レイヤー数を手動指定する必要は通常ありません。強制的に調整したい場合はモデルパラメータを変更できます(上級者向け、一般ユーザーは不要)。
トラブルシューティングガイド
GPU アクセラレーション設定では、いくつか問題に当たるのが普通です。よくある切り分け手順をまとめます。
GPU 未検出のチェックリスト
順番に確認:
-
ドライバーインストールの確認
# NVIDIA nvidia-smi # AMD rocminfoエラーなら、まずドライバーを入れる。
-
Ollama バージョンの確認
ollama --version古すぎると一部 GPU 非対応の可能性。更新:
# Linux/macOS curl -fsSL https://ollama.com/install.sh | sh # Windows # 公式サイトから最新インストーラーをダウンロード -
CUDA/ROCm バージョンの確認
# NVIDIA CUDA バージョン nvcc --version # ROCm バージョン rocm-smiOllama は CUDA 12.3+ または ROCm 6.0+ を要求。バージョンが古ければアップグレード。
-
サービスの再起動
# Linux sudo systemctl restart ollama # macOS/Windows # プロセスを終了して再起動設定変更は再起動が必要な場合があります。
スリープ復帰後に GPU が消える
Mac と Windows で起きがち——スリープから復帰すると GPU アクセラレーションが無効になる。
対処:
- Mac:Ollama サービスを再起動、または PC 自体を再起動
- Windows:ドライバー状態を確認し、必要なら再読み込み
- Linux:通常は問題になりにくいが、GPU の手動ウェイクが必要なことも
コンテナ内の GPU 権限問題
Linux で Docker 内 Ollama を動かすと、SELinux 権限で詰まることがあります。
対処:
# SELinux を一時無効化(長期運用は非推奨)
sudo setenforce 0
# または Docker GPU アクセスを正しく設定
docker run --gpus all --security-opt seccomp=unconfined ollama/ollama
その他のよくある問題
「out of memory」エラー:モデルが大きすぎて VRAM 不足。量子化版に切り替えるか、小さいモデルへ。
推論速度が上がらない:ollama ps で GPU と表示されているか確認。CPU なら上記を順に切り分け。
AMD GPU が動かない:ROCm インストールを確認。Windows なら Vulkan モードを試す。
まとめ
ここまで読んだら、どう選ぶか。
| あなたのハードウェア | 推奨方式 | 設定難易度 |
|---|---|---|
| NVIDIA GPU | CUDA 自動有効 | 低(ドライバーを入れるだけ) |
| AMD GPU + Linux | ROCm | 中(手動インストール) |
| AMD GPU + Windows | Vulkan | 低(環境変数設定) |
| Apple Silicon | Metal 自動有効 | 極低(ゼロ設定) |
| Intel Mac または GPU なし | CPU のみ | 設定不要だが非常に遅い |
端的に言えば:NVIDIA が最もラク、Mac が最も幸せ、AMD は Linux なら悪くないが Windows は迂回が必要、GPU がないなら……何とか 1 枚手に入れる価値があります。
GPU アクセラレーションはオプションの最適化ではなく、ローカル LLM の前提条件。設定が整えば、体験の差は質的な飛躍になります。
NVIDIA CUDA GPU アクセラレーション設定
NVIDIA グラフィックカードで Ollama GPU アクセラレーションを設定し、大規模モデルの高速推論を実現する
⏱️ 目安時間: 10 分
- 1
ステップ1: GPU とドライバーを確認
`nvidia-smi` を実行し、GPU 情報、ドライバーバージョン、CUDA バージョンを確認します。エラーが出る場合は、ドライバー未インストールかパス設定の問題です。 - 2
ステップ2: ドライバーをインストールまたは更新
NVIDIA 公式サイトから最新ドライバーをダウンロードします。Linux ユーザーはディストリビューション標準の古いドライバーに注意。Windows は 531 以上、Linux は 535 以上が必要です。 - 3
ステップ3: Ollama を起動してテスト
`ollama run llama3.2` でモデルを起動し、`ollama ps` でプロセッサ状態を確認します。GPU パーセンテージが表示されればアクセラレーション有効です。 - 4
ステップ4: 問題があればトラブルシュート
CPU と表示される場合、CUDA Toolkit の不足(Linux では nvidia-cuda-toolkit をインストール)、Docker 利用時は --gpus all オプション、Ollama サービスの再起動を確認してください。
FAQ
Ollama は AMD グラフィックカードに対応していますか?
GPU アクセラレーションが有効かどう確認しますか?
VRAM が足りず大規模モデルが動きません。どうすればいい?
Mac で Metal の設定は必要ですか?
NVIDIA グラフィックカードの要件は?
6分で読めます · 公開日: 2026年5月16日 · 更新日: 2026年6月8日
Ollama ローカル LLM 実践ガイド
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
Ollama モデル量子化実践:GGUF フォーマットと精度損失の完全解説
Ollama の GGUF 量子化の仕組みを詳解。Red Hat の 50 万件超の評価データから精度損失の真相を明らかにし、ハードウェア構成ごとの量子化選択指針を提示。コンシューマー向け GPU で大規模モデルを動かす方法を解説します。
第 17 / 19 記事
次の記事
Mnemo ローカル記憶レイヤー:Ollama と自作 LLM に引き継げる記憶を残す
Mnemo とは何か、どんなローカル LLM ワークフローに合うのか。Rust、SQLite、グラフ検索、Ollama クイックスタート、導入判断、トラブルシュートを整理します。
第 19 / 19 記事
関連記事
Ollama 入門:ローカルで大規模言語モデルを動かす第一歩
Ollama 入門:ローカルで大規模言語モデルを動かす第一歩
Ollama モデル管理:ダウンロード、切り替え、削除とバージョン管理の完全ガイド
Ollama モデル管理:ダウンロード、切り替え、削除とバージョン管理の完全ガイド
Ollama Modelfile パラメータ徹底解説:専用カスタムモデルを作る完全ガイド
コメント
GitHubアカウントでログインしてコメントできます