LLM 評価フレームワーク比較:LangSmith vs W&B vs MLflow
LangChain アプリを本番投入したあと、ユーザーから「たまに変な回答が返ってくる」と言われたことはありませんか。ログを開いても JSON の山だけ。Prompt の設計ミスなのか、RAG の検索精度が低いのか、Agent のツール呼び出しが失敗したのか——ログだけでは切り分けが難しい。
LLM アプリは従来型ソフトウェアと違い、出力が不確実で、実行チェーンが 10〜100 ステップに及ぶことも珍しくありません。ログを眺めるだけでは足りず、各ステップを追跡し、呼び出しごとに評価できるツールが必要です。
LangSmith、Weights & Biases、MLflow——3 つとも「LLM 可観測性ソリューション」を謳っていますが、どれを選ぶべきでしょうか。本記事では、3 つの位置づけ、機能差、適用シーン、そして実コストを比較します。読み終える頃には、チーム規模・予算・技術スタックに合った選択が見えてくるはずです。
LangSmith、W&B、MLflow:位置づけが選定を決める
正直に言うと、3 つの根本差は機能一覧より「出自」と「DNA」にあります。ここを押さえるほうが、項目比較より重要です。
LangSmith:LangChain エコシステムのネイティブ監視基盤
LangSmith は LangChain 社の自社製品で、LangChain / LangGraph と同じ系譜です。LangChain で LLM アプリを作っているなら、ほぼゼロ設定で統合できます。SDK を入れ、数行足すだけ——それで終わりです。
昨年、ある Agent プロジェクトで使いました。LangGraph で状態管理をしていて、1 リクエストあたり 7〜8 個のツール呼び出しと条件分岐が絡む複雑なチェーンでした。LangSmith の tracing なら、実行グラフ全体が一目瞭然。どのステップで止まったか、どのツールが誤った結果を返したか、すぐわかります。
LangSmith の主な機能:
- Dataset-based evaluations:テストデータセットをアップロードして自動評価
- LLM-as-Judge:GPT-4 などの LLM で出力品質を判定
- Tracing:LLM 呼び出し、ツール呼び出し、Chain 実行をステップごとに追跡
- Playground:Prompt をオンラインで試し、結果をリアルタイム確認
一言でいえば、LangChain や LangGraph を使っているなら LangSmith が最も手間が少ない選択です。統合に悩む必要も、長いドキュメントを読み込む必要もありません。
Weights & Biases:ML 実験追跡の老舗
Weights & Biases(W&B)は LangSmith より歴史が長く、2018 年から ML 実験追跡を提供してきました。主戦場は研究・実験です。ハイパーパラメータ調整、数十モデルの性能比較、学習曲線の記録——ここが強みです。
2024 年、W&B は LLM 向けの Weave をリリースしました。Weave は LLM 呼び出しチェーンの追跡、Token コスト計算、Prompt ごとの出力比較に対応します。
ただ、W&B の LLM 機能には後付け感があります。UI には従来の ML 実験管理の名残——実験比較表や学習曲線——が残っていて、研究には向いていますが、本番 LLM 監視の体験は LangSmith ほど滑らかではありません。
W&B の主な機能:
- Weave LLM Tracing:LLM 呼び出しチェーンの追跡
- 実験比較:多数実験のパラメータと結果を横断比較
- コスト試算:Token 消費と API コストの算出
- チーム協業:実験記録、コメント、共有
一言でいえば、大量の実験比較やハイパーパラメータ調整が中心なら W&B は定番。本番監視の快適さは LangSmith に一歩譲ります。
MLflow:OSS MLOps の柔軟な選択肢
MLflow は 2018 年に Databricks が OSS 化した「ML ライフサイクル管理プラットフォーム」です。実験追跡、モデル登録、デプロイ、プロジェクトパッケージの 4 モジュールで構成されます。
MLflow の芯は、完全な制御とベンダーロックイン回避です。無料で自前デプロイでき、データはすべて社内に置けます。
一方、LLM 対応は相対的に弱いです。mlflow.evaluate() には 50 以上の指標がありますが、主眼は従来型 ML モデル。マルチターン会話評価や Agent 実行追跡など、LLM 固有の要件は LangSmith や W&B ほど揃っていません。
金融系で LLM を進めている知人の話では、コンプライアンス上データを社外に出せず、オンプレ MLflow を選びました。データは完全に自社管理。代わりに、サーバー・DB・ストレージの保守、アップグレード、バックアップを自前で担う運用コストがかかります。
MLflow の主な機能:
- 実験追跡:パラメータ、指標、モデルファイルの記録
- モデル登録:バージョン管理とパッケージング
- モデルデプロイ:複数デプロイ方式に対応
- 50+ 組み込み評価指標:従来 ML 中心 + 一部 LLM 指標
一言でいえば、OSS と完全制御が必要なら MLflow は無料だが、LLM 機能は自前で補完が必要です。
追跡だけではない:評価・デバッグ・デプロイ能力の比較
位置づけだけでは足りません。実務で使いやすいかを、追跡・評価・本番デプロイの 3 軸で見ます。
追跡能力:実行チェーンを説明できるか
LLM アプリで厄介なのは、実行チェーンの長さです。1 回の Agent 呼び出しに、Prompt 構築 → LLM 呼び出し → ツール実行 → 結果解析 → 再 LLM 呼び出し……が含まれることもあり、途中のどこかが崩れると最終出力まで波及します。
| 次元 | LangSmith | W&B Weave | MLflow |
|---|---|---|---|
| LLM-native Tracing | ✅ LLM 専用設計 | ✅ 対応するが ML 実験寄り | ⚠️ 汎用追跡、LLM は弱め |
| Agent 実行グラフ | ✅ フロー全体を可視化 | ⚠️ 基本追跡のみ、グラフは弱い | ❌ 非対応 |
| マルチターン会話追跡 | ✅ 各ターンを完全記録 | ✅ 対応 | ⚠️ カスタム実装が必要 |
| ツール呼び出し追跡 | ✅ 自動記録 | ✅ 対応 | ❌ 非対応 |
| 実行時間分析 | ✅ ステップごとの所要時間 | ✅ 対応 | ✅ 対応 |
追跡では LangSmith が専門家ポジションです。Agent 実行グラフやツール呼び出しが標準機能。W&B Weave は「ML 実験管理に LLM モジュールを足した」感触。MLflow は従来 ML 向けで、LLM 要件はコードで埋める前提です。
例えば、RAG Agent の検索結果が時々外れる問題を LangSmith で追ったとき、Embedding モデル側のベクトル距離計算ミスが原因だと特定できました。ログの JSON を数百行読むより、はるかに早いです。
評価能力:出力の良し悪しを判断できるか
追跡は「何が起きたか」、評価は「結果が良いか」。LLM の非決定性ゆえ、評価は特に重要です。
| 次元 | LangSmith | W&B Weave | MLflow |
|---|---|---|---|
| LLM-as-Judge | ✅ ネイティブ、複数モデル選択可 | ⚠️ 設定が必要 | ⚠️ カスタム実装 |
| Dataset Management | ✅ データセット一括評価 | ✅ 対応 | ✅ 対応 |
| マルチターン会話評価 | ✅ 会話シーン向け | ⚠️ カスタム実装 | ❌ 非対応 |
| 出力比較 | ✅ 複数バージョン比較 | ✅ 横断比較が得意 | ⚠️ 手動設定 |
| 組み込み評価指標 | 10+ LLM 専用 | 5〜10 LLM 関連 | 50+ 従来 ML 中心 |
LangSmith の LLM-as-Judge は使いやすく、GPT-4 や Claude に「正確か」「有害か」「簡潔か」を判定させられます。基準はカスタム化でき、テンプレートとして再利用も可能です。
W&B の出力比較は強みです。20 種類の Prompt を並べて比べる表形式 UI は、従来 ML 実験管理から受け継いだ利点です。
MLflow は指標数こそ 50+ ですが、精度・F1・AUC など ML 向けが中心。意味的類似度や有害性検出など LLM 指標は自前実装が必要です。
本番デプロイ能力:運用まで伴走できるか
研究フェーズと本番運用では求めるものが違います。前者は実験比較、後者は監視アラートです。
| 次元 | LangSmith | W&B Weave | MLflow |
|---|---|---|---|
| 監視アラート | ✅ エラー率・遅延アラート | ⚠️ 実験向き、本番監視は弱い | ⚠️ Grafana 連携が必要 |
| A/B テスト | ✅ 本番バージョン比較 | ⚠️ 実験比較で本番 A/B ではない | ❌ 非対応 |
| 統合難易度 | ✅ LangChain はゼロ設定 | ⚠️ 手動統合 | ⚠️ 自前デプロイ |
| 本番安定性 | ✅ マネージド、高可用 | ✅ マネージド | ⚠️ 自社運用 |
本番デプロイの体験は LangSmith が最も整っています。サーバー障害やバックアップを気にせず、監視・アラート・A/B テスト・エラー追跡を一気通貫で回せます。
W&B は研究向き。実験比較は優秀ですが、リアルタイムアラートや本番エラー追跡は LangSmith に及びません。
MLflow は自社運用が前提。サーバー、DB、バックアップ、アップグレードを自分で面倒を見ます。完全制御の代償として運用コストが乗ります。本番では MLflow + Grafana の組み合わせ——MLflow で記録、Grafana で監視——がよく使われます。
価格表だけでは足りない:真の TCO が選定の鍵
「MLflow は無料、LangSmith は有料だから MLflow」——これは単純すぎます。真の TCO(総所有コスト) には、運用人件費、統合工数、機会損失も含まれます。
価格比較表
| ツール | 価格モデル | 無料枠 | 典型月額(5 人チーム) |
|---|---|---|---|
| LangSmith | Seat + Traces | 5,000 traces/月 | Plus:$39/seat、小規模で $120〜200/月 |
| W&B | Free / Team / Enterprise | 個人無料、チーム有料 | Team 約 $50/seat、中規模で $500+/月 |
| MLflow | OSS 完全無料 | 無制限 | インフラ $100〜300/月(サーバー + ストレージ) |
LangSmith の料金は比較的明快です。無料版は月 5,000 traces。Plus は $39/席で、5 人なら月 $120〜200(traces 量次第)。Enterprise は要見積もりです。
W&B は層が多く、席料に加え実験ストレージやデータ量も課金対象になります。10〜20 人規模では月 $500 超も珍しくありません。
MLflow はライセンス無料ですが、デプロイは自前。2 コア 4 GB の VM で月 $50〜100、100 GB ストレージで $20〜50、帯域 $30〜50——合計 $100〜200/月が目安。高可用構成なら倍額もあり得ます。
見落としがちなコスト
MLflow の運用コスト:アップグレード、バックアップ、障害対応——専任 SRE がいなければ開発者の時間になります。月給 20K のエンジニアが週 4 時間を MLflow 保守に使えば、月 2K 相当。障害調査は別途。
無料枠超過の追加コスト:LangSmith の 5,000 traces/月を、1 日 500 回呼び出しで超過(月 15,000 traces)。Plus の従量課金分を事前見積もりが必要です。
統合コスト:LangChain なら LangSmith は簡単。LlamaIndex や素の OpenAI API 呼び出しなら工数増。W&B と MLflow はコード統合が前提で、ゼロ設定ではありません。
真のコスト試算例
5 人チーム、月 10,000 traces と仮定:
| ツール | ライセンス | 運用 | 統合(一回) | 月あたり実コスト |
|---|---|---|---|---|
| LangSmith Plus | $200 | $0(マネージド) | $0 | $200 |
| W&B Team | $250 | $0(マネージド) | $500(2 日) | $250 + 一回 $500 |
| MLflow 自前 | $0 | $150(サーバー)+ $400(人件費) | $1,000(3 日) | $550 + 一回 $1,000 |
こう見ると MLflow が必ずしも安くはありません。運用に強いチームと既存インフラがあれば有利。開発に集中したいなら、LangSmith や W&B の方が ROI が高いこともあります。
肝心なのは、チームの時間はいくらの価値があるかです。1 週間 MLflow を立てる代わりに、プロダクト改善に使えるなら、有料ツールの方が合理的かもしれません。
状況別の選び方
ここまでの話を、実際の選定フローに落とし込みます。
決定フロー
ステップ 1:LangChain / LangGraph を使っていますか?
- はい → LangSmith。ゼロ設定で最速。
- いいえ → ステップ 2 へ。
ステップ 2:完全 OSS / ベンダーロックイン回避が必要ですか?
- はい → MLflow + Langfuse。MLflow で実験、Langfuse で本番監視。どちらも OSS、データは自社管理。
- いいえ → ステップ 3 へ。
ステップ 3:主な作業は?
- 研究・大量実験比較 → W&B Weave。
- 本番監視・アラート → LangSmith または Langfuse。
ステップ 4:規模と予算は?
- 小規模(5 人未満)、予算限り → LangSmith 無料版(5,000 traces)または MLflow 自前。
- 中規模(5〜20 人) → LangSmith Plus または W&B Teams(月 $200〜500)。
- 大規模(20 人超) → Enterprise 版、または HA MLflow + Grafana 自前。
推奨組み合わせ
| シーン | 推奨 | 理由 |
|---|---|---|
| LangChain ユーザー | LangSmith | ゼロ設定、ネイティブ統合 |
| 研究実験中心 | W&B Weave | 実験比較・ハイパーパラメータ調整 |
| OSS で制御 | MLflow + Langfuse | データ自律、LLM 機能を補完 |
| 小規模・予算限り | LangSmith 無料版 | 5,000 traces で試せる |
| 大企業コンプライアンス | MLflow 自前 + Grafana | データ不出社、完全制御 |
完璧な 1 本勝負のツールはありません。LangSmith は便利だが有料、MLflow は無料だが運用が重い、W&B は研究に強く本番は弱い——技術スタック、予算、チーム体制で選ぶのが正解です。
結論
LLM アプリの監視と評価は「あれば良い」ではなく、本番必須です。監視なしでは本番で何が起きているかわからず、評価なしでは品質基準を満たしているか判断できません。
LangSmith、W&B、MLflow にはそれぞれトレードオフがあります:
- LangSmith — LangChain ユーザー向け。ゼロ設定、深い統合、機能が揃っている。
- MLflow + Langfuse — OSS と完全制御が必要なチーム向け。無料だが運用工数は自前。
- W&B Weave — 大量実験比較・ハイパーパラメータ調整向け。本番監視は LangSmith に劣る。
最後に:価格表だけでなく TCO を見てください。MLflow はライセンス無料でも運用コストあり。LangSmith は有料でも開発・デバッグ時間を節約します。ツール選びは機能選びであると同時に ROI 選び——「どれが安いか」より「チームの時間はいくらの価値か」の方が重要です。
今お使いのツールや、選定で困った点があれば、コメントで共有してください。
FAQ
LangSmith 無料版の 5,000 traces で足りますか?
MLflow を自前構築した場合の運用コストはどのくらい?
LangChain を使わなくても LangSmith は使えますか?
W&B Weave と LangSmith の LLM 追跡の違いは?
本番環境ではどれを推奨しますか?
既存の監視基盤から移行するには?
7分で読めます · 公開日: 2026年4月28日 · 更新日: 2026年6月8日
AI 開発実践
検索からこのページに来た場合は、前後の記事もあわせて読むと同じテーマの理解がかなり早く深まります。
前の記事
RAG + Agent:次世代 AI アプリケーションのアーキテクチャ
従来型 RAG から Agentic RAG へのアーキテクチャ進化を解説。10 種類の RAG パターン、フレームワーク選定の比較、エンタープライズ導入ロードマップ、AI カスタマーサポートの実践事例まで網羅
第 18 / 40 記事
次の記事
AI エージェントツールチェーン設計:単一ツールからツールエコシステムへの進化ガイド
AI エージェントのツールチェーン設計を解説。MCP プロトコルから主要フレームワーク選定まで、LangChain・CrewAI・AutoGen の比較とエンタープライズ導入の実践をカバーし、拡張可能なツールエコシステムの構築を支援します。
第 20 / 40 記事
関連記事
Workers AI 完全ガイド:毎日 1 万回相当の無料 LLM 呼び出し、OpenAI より最大 90% 節約
Workers AI 完全ガイド:毎日 1 万回相当の無料 LLM 呼び出し、OpenAI より最大 90% 節約
AI で 1 万行のレガシーコードをリファクタリング:1 ヶ月分の仕事を 2 週間で終えた実録
AI で 1 万行のレガシーコードをリファクタリング:1 ヶ月分の仕事を 2 週間で終えた実録
OpenAI API がタイムアウトする?Workers で専用チャネルを構築、コストゼロで安定化
コメント
GitHubアカウントでログインしてコメントできます