言語を切り替える
テーマを切り替える

Ollama GPU アクセラレーション設定:CUDA・ROCm・Metal 全プラットフォーム実践ガイド

7B モデルを初めてローカルで動かしたとき、CPU だけで回していました。体感としては……1 秒に 2 文字も出ない。一文が終わるまでにコーヒーが半分飲めるくらいの時間。RTX 3080 に替えて同じモデル・同じ設定にしたら、40 トークン/秒超え——差はおよそ 50 倍。

これだけではありません。モデルが大きくなったり、コンテキストが長くなったり、多ターン対話になると、CPU では現実的ではなくなります。GPU アクセラレーションは「あると快適」ではなく、「使えるかどうか」の境界線です。

PC に GPU があるなら——NVIDIA、AMD、Apple Silicon のどれでも——Ollama の加速に使える可能性が高いです。ただし設定方法と落とし穴はプラットフォームごとに違います。NVIDIA はドライバーを入れるだけで済む。AMD は ROCm の設定が必要で、Windows では Vulkan が必要。Mac は何もしなくてよい——これが一番ラクです。

この記事では、3 大プラットフォームの設定方法、よくある落とし穴、トラブルシューティングの考え方をまとめて解説します。

GPU アクセラレーションが重要な理由

まず数字から。実測ベースで、7B モデルの推論速度はハードウェアによって大きく異なります。

アクセラレーション方式典型性能(7B モデル)向いている用途
CPU のみ0.5〜2 トークン/秒テスト、デバッグ
NVIDIA CUDA30〜80 トークン/秒日常利用、本番
Apple Metal20〜50 トークン/秒Mac ユーザー
AMD ROCm25〜60 トークン/秒Linux AMD ユーザー

なぜこんなに差が出るのか。一言でいえば、GPU は「同じ計算の繰り返し」が得意だからです。大規模モデルの推論は、本質的に行列積の連続——数千億回の行列積です。CPU でやるのは、博士号を持った人に算数問題を 1 問ずつ解かせるようなもの。正確だが遅い。GPU は数千の小さな演算ユニットが分担する。1 個あたりの知能は低くても、数の力で圧倒します。

もう 1 点、メモリ帯域幅。推論速度は、データを計算ユニットにどれだけ速く届けられるかに大きく左右されます。GPU のメモリ帯域幅は CPU の数倍が普通——RTX 3080 は 912 GB/s、一般的な DDR4 は 50 GB/s 前後。データが渋滞すれば、計算が速くても意味がありません。

では GPU が必要なのはいつか。基本的に 7B より大きいモデルを動かすなら必須です。チャット、コード生成、長文生成——GPU なしでは体験がかなり厳しくなります。たまに触る程度、小さなモデルのデバッグなら CPU でもなんとかなります。

NVIDIA CUDA 設定の実践

NVIDIA が最も手間が少ない選択肢です。エコシステムが成熟し、ドキュメントも充実、コミュニティの知見も豊富——つまずきポイントはすでに多くの人が踏んできています。

ハードウェアとドライバー要件

すべての NVIDIA GPU が使えるわけではありません。Ollama は Compute Capability 5.0 以上を要求します。ざっくりとした対応表は次のとおり。

Compute Capability代表 GPU対応
8.9RTX 4090/4080/4070最適
8.6RTX 3090/3080/3070最適
7.5RTX 2080 Ti/2080最適
6.1GTX 1080 Ti/1080利用可
5.2GTX 980 Ti/980利用可
5.0 未満GTX 7xx 以前非対応

ドライバーバージョンにも下限があります。公式要件は Windows 531 以上、Linux 535 以上。古すぎると CUDA が動きません。

検証とインストール手順

まず GPU が OS に認識されているか確認します。ターミナルで次を実行:

nvidia-smi

GPU 情報、ドライバーバージョン、CUDA バージョンが表示されれば OK。command not found なら、ドライバー未インストールかパスの問題です。

Ollama はインストール後、CUDA を自動検出します。追加設定は不要で、ドライバーが正常ならそのまま使えます。モデルを動かして確認:

ollama run llama3.2
ollama ps

ollama ps の出力例:

ID      MODEL           SIZE      PROCESSOR    UNTIL
abc123  llama3.2:7b     4.7 GB    100% GPU     2 minutes from now

CPU と表示される場合は、何か問題があります。

よくある落とし穴

ドライバーバージョンが古い。NVIDIA 公式サイトから最新版を入れてください。Linux ではディストリビューション標準の古いドライバーを誤って使わないよう注意。

CUDA Toolkit がない。Ollama はフル CUDA Toolkit を必要としません。組み込みの簡易版で動きます。ただし特殊な環境では CUDA runtime の手動インストールが必要なことも。Linux では例えば:

# Ubuntu/Debian
sudo apt install nvidia-cuda-toolkit

コンテナで Ollama を動かす。Docker 利用時は --gpus all で GPU をコンテナに渡す必要があります:

docker run --gpus all ollama/ollama

AMD ROCm 設定の実践

AMD ユーザーは手間がかかります。ROCm(AMD 版 CUDA)は CUDA ほど成熟していませんが、ここ 2 年は大きく改善されています。Linux なら比較的スムーズ、Windows は迂回が必要です。

対応 AMD GPU は?

ROCm は RDNA アーキテクチャのサポートが最も充実しています。

アーキテクチャシリーズサポート度
RDNA3RX 7900 XTX/XT、RX 7800/7700最良
RDNA2RX 6800/6700/6600良好
RDNA1RX 5700/5600/5500基本利用可
GCNRX Vega、RX 500/400公式非保証

RX 7000 と 6000 シリーズなら問題なし。5000 シリーズはギリギリ使える程度。それより古い GPU は期待しない方がよいです。

Linux での ROCm インストール

Ubuntu/Debian ユーザーは次の手順:

# システム対応を確認
sudo apt update

# ROCm コアをインストール
sudo apt install rocm-dkms rocm-dev rocm-libs

# HIP runtime をインストール
sudo apt install hip-runtime-amd

# インストールを検証
rocminfo

rocminfo で GPU 情報が見えれば成功。一度再起動して、カーネルモジュールを読み込ませてください。

Ollama はインストール後、ROCm を自動検出します。CUDA と同様、追加設定は不要です。

Windows ユーザーは?

ROCm の Windows サポートはまだ開発中です。代替として Vulkan があります。環境変数を設定するだけ:

# Windows PowerShell
$env:OLLAMA_VULKAN = "1"
ollama run llama3.2

Vulkan は ROCm ほど速くはありませんが、動きます。実測では ROCm の 70〜80% 程度の速度です。

マルチ GPU の選択

AMD GPU が複数ある場合、使う GPU を指定できます:

# 1 枚目の GPU のみ使用
export ROCR_VISIBLE_DEVICES=0

# 1 枚目と 3 枚目を使用
export ROCR_VISIBLE_DEVICES=0,2

性能比較

AMD 公式とコミュニティのベンチマークによると、RX 7900 XTX(AMD フラッグシップ)で 7B モデルは 35〜45 トークン/秒、RTX 4090(NVIDIA フラッグシップ)は 50〜70 トークン/秒。差はありますが、価格差の方が大きい——7900 XTX は約 40% 安い。

コスパ重視なら、AMD ユーザーにとって ROCm を設定する価値は十分あります。

Apple Metal:ゼロ設定の体験

Mac ユーザーが最もラクです。Ollama の Apple Silicon サポートはゼロ設定——インストールして実行するだけで、GPU アクセラレーションが自動で有効になります。

対応 Mac は?

Apple Silicon Mac はすべて対応:

  • M1 / M1 Pro / M1 Max / M1 Ultra
  • M2 / M2 Pro / M2 Max / M2 Ultra
  • M3 / M3 Pro / M3 Max
  • M4 シリーズ

Intel Mac は Metal アクセラレーション非対応で、CPU のみです。Intel Mac はそろそろ買い替え時期かもしれません。

自動検出の仕組み

Ollama 起動時に Metal を自動検出します。設定ファイル、環境変数、ドライバーインストールは不要——Apple が Metal を OS に深く統合しているからです。

確認方法:

ollama run llama3.2
ollama ps

GPU と表示されるはず:

PROCESSOR: 100% GPU

CPU と出る場合は問題がありますが、Mac ではかなり稀です。

おおよその性能

M2 ベースモデルで 7B モデルは 25〜35 トークン/秒。Pro/Max は GPU コア数が多い分、さらに速い。M2 Max なら 45 トークン/秒前後——中級 NVIDIA カードと同等です。

1 点注意:Apple Silicon はユニファイドメモリ——GPU と CPU がシステムメモリを共有します。VRAM 上限がない反面、大規模モデルはメモリを大量に消費します。M2 8GB なら 7B はなんとか、14B は厳しく、70B は現実的ではありません。

よくある誤解

Metal の設定が必要だと思う人がいますが、完全に不要です。Ollama 公式コードに Metal 検出ロジックが組み込まれており、インストール後に自動有効になります。

ROCm や CUDA を Mac に入れる必要があるか、という質問もありますが——Mac では不要です。Metal は Apple 独自の技術で、OS に標準搭載されています。

マルチ GPU と VRAM 管理

GPU が複数ある、または VRAM が足りない場合、このセクションが重要になります。

レイヤー分散の仕組み

大規模モデル全体が GPU 上で動くわけではありません。多数の「レイヤー」に分かれ、GPU が一部、残りは CPU が担当します。この比率は動的に計算され——Ollama が利用可能 VRAM に応じて、GPU に載せるレイヤー数を自動決定します。

例:7B モデルは約 80 レイヤー。GPU VRAM が 8GB なら、60 レイヤーが GPU、20 レイヤーが CPU になることも。VRAM が足りなければ、より多くのレイヤーがシステムメモリに溢れます。

Pack と Spread モード

マルチ GPU 環境には 2 つの戦略があります。

  • Pack モード(デフォルト):1 枚の GPU にできるだけ詰め込み、溢れた分を別 GPU へ。2 枚の性能差が大きい場合向き。
  • Spread モード:全 GPU に均等分散。2 枚の性能が近い場合向き。

Spread モードを有効にする:

export OLLAMA_SCHED_SPREAD=1

正直、多くの人はデフォルトの Pack モードで十分です。Spread は VRAM 利用率にメリットがありますが、設定とチューニングに経験が要ります。

VRAM が足りないとき

大規模モデルで最も悩ましいのが VRAM 不足。対処法は次のとおり。

1. 量子化モデルを使う。Q4_K_M 量子化なら、7B モデルの VRAM を 14GB から 4GB 前後に圧縮でき、性能低下は 5〜10% 程度。コスパが非常に良い。

# 量子化版を取得
ollama pull llama3.2:7b-q4_K_M

2. コンテキスト長を短くする。長い対話や大きなドキュメントは VRAM を大量消費します。シンプルな Q&A なら、短いコンテキストで問題ありません。

3. マルチ GPU で分散。8GB カード 2 枚は、16GB カード 1 枚より使いやすい場合も——各カードに独立した演算ユニットがあるからです。

動的割り当てのロジック

Ollama がこれらを自動管理するため、レイヤー数を手動指定する必要は通常ありません。強制的に調整したい場合はモデルパラメータを変更できます(上級者向け、一般ユーザーは不要)。

トラブルシューティングガイド

GPU アクセラレーション設定では、いくつか問題に当たるのが普通です。よくある切り分け手順をまとめます。

GPU 未検出のチェックリスト

順番に確認:

  1. ドライバーインストールの確認

    # NVIDIA
    nvidia-smi
    
    # AMD
    rocminfo

    エラーなら、まずドライバーを入れる。

  2. Ollama バージョンの確認

    ollama --version

    古すぎると一部 GPU 非対応の可能性。更新:

    # Linux/macOS
    curl -fsSL https://ollama.com/install.sh | sh
    
    # Windows
    # 公式サイトから最新インストーラーをダウンロード
  3. CUDA/ROCm バージョンの確認

    # NVIDIA CUDA バージョン
    nvcc --version
    
    # ROCm バージョン
    rocm-smi

    Ollama は CUDA 12.3+ または ROCm 6.0+ を要求。バージョンが古ければアップグレード。

  4. サービスの再起動

    # Linux
    sudo systemctl restart ollama
    
    # macOS/Windows
    # プロセスを終了して再起動

    設定変更は再起動が必要な場合があります。

スリープ復帰後に GPU が消える

Mac と Windows で起きがち——スリープから復帰すると GPU アクセラレーションが無効になる。

対処:

  • Mac:Ollama サービスを再起動、または PC 自体を再起動
  • Windows:ドライバー状態を確認し、必要なら再読み込み
  • Linux:通常は問題になりにくいが、GPU の手動ウェイクが必要なことも

コンテナ内の GPU 権限問題

Linux で Docker 内 Ollama を動かすと、SELinux 権限で詰まることがあります。

対処:

# SELinux を一時無効化(長期運用は非推奨)
sudo setenforce 0

# または Docker GPU アクセスを正しく設定
docker run --gpus all --security-opt seccomp=unconfined ollama/ollama

その他のよくある問題

「out of memory」エラー:モデルが大きすぎて VRAM 不足。量子化版に切り替えるか、小さいモデルへ。

推論速度が上がらないollama ps で GPU と表示されているか確認。CPU なら上記を順に切り分け。

AMD GPU が動かない:ROCm インストールを確認。Windows なら Vulkan モードを試す。

まとめ

ここまで読んだら、どう選ぶか。

あなたのハードウェア推奨方式設定難易度
NVIDIA GPUCUDA 自動有効低(ドライバーを入れるだけ)
AMD GPU + LinuxROCm中(手動インストール)
AMD GPU + WindowsVulkan低(環境変数設定)
Apple SiliconMetal 自動有効極低(ゼロ設定)
Intel Mac または GPU なしCPU のみ設定不要だが非常に遅い

端的に言えば:NVIDIA が最もラク、Mac が最も幸せ、AMD は Linux なら悪くないが Windows は迂回が必要、GPU がないなら……何とか 1 枚手に入れる価値があります。

GPU アクセラレーションはオプションの最適化ではなく、ローカル LLM の前提条件。設定が整えば、体験の差は質的な飛躍になります。

NVIDIA CUDA GPU アクセラレーション設定

NVIDIA グラフィックカードで Ollama GPU アクセラレーションを設定し、大規模モデルの高速推論を実現する

⏱️ 目安時間: 10 分

  1. 1

    ステップ1: GPU とドライバーを確認

    `nvidia-smi` を実行し、GPU 情報、ドライバーバージョン、CUDA バージョンを確認します。エラーが出る場合は、ドライバー未インストールかパス設定の問題です。
  2. 2

    ステップ2: ドライバーをインストールまたは更新

    NVIDIA 公式サイトから最新ドライバーをダウンロードします。Linux ユーザーはディストリビューション標準の古いドライバーに注意。Windows は 531 以上、Linux は 535 以上が必要です。
  3. 3

    ステップ3: Ollama を起動してテスト

    `ollama run llama3.2` でモデルを起動し、`ollama ps` でプロセッサ状態を確認します。GPU パーセンテージが表示されればアクセラレーション有効です。
  4. 4

    ステップ4: 問題があればトラブルシュート

    CPU と表示される場合、CUDA Toolkit の不足(Linux では nvidia-cuda-toolkit をインストール)、Docker 利用時は --gpus all オプション、Ollama サービスの再起動を確認してください。

FAQ

Ollama は AMD グラフィックカードに対応していますか?
対応しています。Linux ユーザーは ROCm、Windows ユーザーは OLLAMA_VULKAN=1 環境変数で Vulkan モードを有効にしてください。RDNA2 と RDNA3 アーキテクチャが最も安定しています。
GPU アクセラレーションが有効かどう確認しますか?
`ollama run モデル名` 実行後に `ollama ps` を実行し、PROCESSOR 列の GPU パーセンテージを確認します。100% GPU と表示されればアクセラレーションが有効です。
VRAM が足りず大規模モデルが動きません。どうすればいい?
3 つの方法があります。量子化モデルを使う(Q4_K_M なら 7B モデルの VRAM を 14GB から 4GB 程度に削減)、コンテキスト長を短くする、マルチ GPU で分散する。
Mac で Metal の設定は必要ですか?
不要です。Apple Silicon Mac では Ollama インストール後、自動で Metal アクセラレーションが有効になります。M1/M2/M3/M4 シリーズであることを確認してください。Intel Mac は CPU のみです。
NVIDIA グラフィックカードの要件は?
Compute Capability 5.0 以上(GTX 960 以降)。ドライバーは Windows 531+、Linux 535+ が必要です。インストール後、Ollama が CUDA を自動検出します。

6分で読めます · 公開日: 2026年5月16日 · 更新日: 2026年6月8日

関連記事

コメント

GitHubアカウントでログインしてコメントできます