言語を切り替える
テーマを切り替える

OpenClaw リモートコントロール完全ガイド:スマホを個人のAIオペレーティングシステムのリモコンに変える

先週の水曜日、私はカフェの窓際の席に座り、斜めに差し込む日差しがMacBookのキーボードを照らしていました。急ぎの仕事があり、自宅のデスクトップPCのデヴィスクトップに置いているPDFを確認する必要がありましたが、私は外出中でした。その時、私はスマホを取り出し、Telegramの「ClawBot」にメッセージを送りました。「デスクトップのスクリーンショットを撮って見せて」。

10秒後、スマホの画面に鮮明なデスクトップのスクリーンショットが表示されました。一目でそのPDFファイルを見つけました。さらにメッセージを送りました。「このファイルを開いて、3ページ目に何が書かれているか教えて」。2分後、AIは3ページ目の核心となる内容を要約して返信してきました。

向かいに座っていた友人は目を丸くして言いました。「それ、どうやってるの?」

正直なところ、この半年間、私にとってこのようなシーンはもう見慣れたものです。OpenClawを個人のAIオペレーティングシステムとして設定して以来、私のiPhoneは真の「リモコン」になりました——自宅のパソコンのカメラを呼び出し、位置情報を取得し、リモートでスクリーンショットを撮ることができます。最も重要なことは、これらすべてがオープンソースツールによって実現されており、データは完全に自分の手元にあるということです。

もしあなたも、メーカーが提供する機能に縛られることなく、スマホを自分のAIエージェントの真のコンソール(操作盤)にしたいと考えているなら、このOpenClaw リモートコントロールガイドはあなたのために書かれたものです。概念的な話は抜きにして、さっそく実践に入りましょう。

OpenClaw ゲートウェイプロトコルの理解(Layer 1 基礎)

スマホをOpenClawのリモコンにするには、まずこのシステムがどのように機能しているのかを理解する必要があります。「ゲートウェイプロトコル(Gateway Protocol)」という言葉に圧倒されないでください。これは単に、異なるデバイスがお互いを認識するための「合言葉」のセットにすぎません。

OpenClawは Gateway WS Protocol(ゲートウェイ WebSocket プロトコル)を使用しています。名前は仰々しいですが、原理は非常にシンプルです:すべてのデバイス——パソコン上のメインコントロールハブ(Gateway)、スマホ上のノード(Node)、Telegramのチャット画面(Client)など——が、WebSocketという持続的な接続チャネルを通じて、統一されたコントロールプレーン上にぶら下がっています。各デバイスが接続する際、自身の「アイデンティティ(身元)」と「ケイパビリティ(能力)」を報告する必要があります。

例えば、あなたのiPhoneが接続する時、それはこのように言います。「私はiOSノードです。カメラ、スクリーンショット、位置情報が使えます。」パソコンは言います。「私はゲートウェイです。コーディネートを担当します。」Telegram Botは言います。「私はクライアントです。ユーザーからの指示を受け取ります。」

このメカニズムには3つの核となる役割(ロール)があり、これらを理解すればその後の設定はスムーズになります:

Gateway(ゲートウェイ):これはシステム全体の「頭脳」であり、メインのデバイス(通常はパソコンやサーバー)で実行されます。すべての指示はまずここに到達し、そこから各ノードに振り分けられて実行されます。

Node(ノード):具体的なタスクを実行する端末(ターミナル)デバイスです。iPhone、Androidスマホ、さらには使っていない古いスマホもノードとして登録できます。各ノードは自身の caps(ケイパビリティ/能力)を宣言する必要があります。例えば、camera(カメラ)、screen(スクリーンショット)、location(位置情報)、voice(音声)などです。

Client(クライアント):指示を送信するためのインターフェースです。Telegramのチャットボックス、Discordのチャンネル、専用のiOSアプリ、またはWebインターフェースなどがこれに当たります。

ここまで聞いて、「スマホにこんなに多くの権限を開放して、安全なのか?」と疑問に思うかもしれません。

率直に言って、これは私が最初に最も心配した問題です。OpenClawはこの点に関して非常によく考えられています。接続時は Token(トークン)認証を使用し、デバイスは署名検証を行う必要があり、通信は TLS 暗号化されます。さらに重要なのは、きめ細かい権限の制御です——あなたのノードは「私にはカメラの能力がある」と宣言できますが、ゲートウェイは「このクライアントはスクリーンショットのみを呼び出せ、カメラは呼び出せない」と設定することができます。

[画像:Gateway、Node、Client の3者の関係を示す OpenClaw ゲートウェイプロトコルアーキテクチャ図]
プロンプト:技術アーキテクチャ図, Gateway中心ノードが複数のiOSおよびAndroidデバイスに接続している様子を示す, 青色基調のテクノロジースタイル, シンプルで明確, high quality

実際に設定する際、ノードの接続パラメータに以下のようなJSONの記述が見られます:

{
  "role": "node",
  "caps": ["camera", "screen", "location"],
  "commands": ["camera.snap", "screen.record", "location.get"],
  "permissions": {
    "camera.capture": true,
    "screen.record": false
  }
}

この設定が意味することは非常に明確です:このノードは写真を撮り、スクリーンを取って、位置情報を取得できますが、実際に使えるかどうかはゲートウェイが与える権限に依存します。これにより、たとえスマホノードが侵入されたとしても、攻撃者ができることは非常に狭い範囲に制限されます。

モバイル端ノード設定の実践(Layer 2 応用)

プロトコルの原理がわかったら、次は実際に手動で設定するプロセスです。iOSとAndroidでは設定の道筋が大きく異なるため、それぞれ分けて説明します。

iOS ノードの設定

まずiPhoneについて話します。OpenClawは公式にApp Storeにアプリを出していません。そのため、TestFlightを使うか(テスト資格があれば)、自分でIPAを署名(サイン)してインストールするかのどちらかになります。私は AltStore を使って自己署名しており、月に1回再署名するだけで、それほど面倒ではありません。

インストール後、アプリを開くとノードの設定画面が表示されます。以下の重要なフィールドを正しく入力する必要があります:

Gateway URL:あなたのゲートウェイのWebSocketアドレスです。ローカルネットワーク内でテストしている場合は ws://192.168.1.100:8080 のようになるでしょう。外部ネットワークからアクセスしたい場合は、リバースプロキシを設定し、wss:// プロトコルを使用する必要があります。私は Cloudflare Tunnel を使用しており、パブリックIPを露出させずに済んでいます。

Client ID:このノードに名前を付けます。例えば「iphone-15-main」などです。

Auth Token:ゲートウェイ側で生成された認証トークンです。コピーして貼り付けます。

Capabilities:開放したい能力(機能)にチェックを入れます。最初は location だけを有効にし、テストが通ったら camerascreen を有効にすることをお勧めします。最初から全開にすると、問題が起きた時にトラブルシューティングが難しくなります。

入力を終えて「接続(Connect)」をタップし、緑色の「Connected」状態が表示されればおめでとうございます、ノードがゲートウェイに正常にぶら下がりました。

ところで、iOSには引っかかりやすい落とし穴があります:「バックグラウンド制限」です。iPhoneはバックグラウンドで実行されるアプリを厳しく管理しており、OpenClawノードがバックグラウンドに長時間置かれるとシステムによって強制終了(キル)されます。解決策は2つあります:1つは「バックグラウンドアプリの更新(Background App Refresh)」を有効にすること。もう1つは、時々アプリを開いてアクティブな状態を保つことです。私は通常、ノード専用にサブのデバイスを使い、メインのデバイスは普段通りに使っています。

Android ノードの設定

Androidの場合はずっと柔軟です。公式のAPKを使うか、Termux内でNode版を走らせるかの2つの選択肢があります。

APK方式はiOSとほぼ同じで、パッケージをインストールして設定を入力し、ゲートウェイに接続します。Androidのバックグラウンド戦略はiOSよりも緩いため、ノードの生存率は高くなります。ただし、国産(中国製)のROMはそれぞれ独自の省電力戦略を持っているため、Huawei、Xiaomi、OPPOなどは手動で「バックグラウンド実行を許可する」を設定する必要があります。そうしないと、すぐに凍結(フリーズ)されてしまいます。

Termuxの手法は、いじるのが好きな人に向いています。Termux内にNode.jsをインストールし、npm install openclaw を実行してコマンドラインからノードを起動します。利点は詳細なログが見られるため、問題が発生した際のトラブルシューティングが容易なことです。欠点は、Termuxのバックグラウンドもキルされる可能性があるため、Termux:Boot や Tasker のようなツールを組み合わせて常駐させる必要があることです。

[画像:AndroidのTermux内でOpenClawノードが実行されている様子のスクリーンショット]
プロンプト:スマホのスクリーンショット, Termuxターミナル画面にOpenClawノードが接続成功したログが表示されている, ダークモード, 緑色の文字, high quality

iOSであれAndroidであれ、セキュリティ設定の原則は1つです:最小権限の原則。あなたのノードは本当にカメラ権限を必要としていますか?位置情報とたまに使うスクリーンショットのためだけなら、カメラはオンにしないでください。権限を狭くすればするほど、攻撃面(アタックサーフェス)は小さくなります。

もう1点、デバイスの署名です。OpenClawは公開鍵・秘密鍵を用いたデバイスの署名検証をサポートしています。設定時にキーペア(鍵ペア)を生成し、公開鍵をゲートウェイに、秘密鍵をノードに置きます。これにより、たとえ誰かがあなたの Token を手に入れたとしても、秘密鍵がなければ接続できません。私は自分のゲートウェイ設定でデバイス署名を必須にしており、Tokenが漏洩しても恐れる必要はありません。

Telegram リモートコントロールの実践

ノードが正常に接続されましたが、それをどのように制御するのでしょうか?最も直接的な方法は Telegram です。正直なところ、これが私の最もお気に入りの方法です——追加のアプリをインストールする必要がなく、Telegramを開くだけで使えるからです。

Telegram Botの設定は、想像以上に簡単です。まず @BotFather に連絡して新しいBotを申請し、Tokenを取得します。次に、OpenClawの channels 設定に telegram プラグインを追加し、Tokenを入力します。ゲートウェイを再起動すると、あなたのBotが機能し始めます。

channels:
  telegram:
    token: "YOUR_BOT_TOKEN"
    mode: polling

Polling モードが最も手軽で、個人での使用に適しています。Webhook モードはパブリックIPアドレスとHTTPSが必要になるため少し面倒ですが、レスポンスはより高速です。

Botが接続されたら、それにメッセージを送ることができます。OpenClawはデフォルトですべてのメッセージをAIの処理に転送しますが、私たちがやりたいのはハードウェアのリモートコントロールです。そのため、特定のコマンドフォーマットを使用する必要があります。

OpenClawの skills 設定では、ノードの能力にコマンドをバインド(紐付け)させることができます。例えば以下のようにします:

skills:
  remote_control:
    commands:
      camera:
        target: "iphone-15-main"
        action: "camera.snap"
      screenshot:
        target: "iphone-15-main"
        action: "screen.capture"
      where:
        target: "iphone-15-main"
        action: "location.get"

設定完了後、Telegramで /camera と入力すると、Botは指定されたiPhoneに写真を1枚撮らせて送り返してきます。/where と入力すると、現在のGPS座標を返信してきます。

私が初めて自宅のスマホに写真を撮らせて返送させることに成功した時、正直言ってとても興奮しました。「いつでも待機している助手が突然増えたような感覚」とでも言いましょうか。しかも完全に自分だけのものです。

[画像:Telegramの対話スクリーンショット。/camera コマンドと返信された写真を示す]
プロンプト:Telegramのチャット画面スクリーンショット, ユーザーが/cameraコマンドを送信し, Botが撮影された写真を返信している, スマホUIスタイル, 中国語, high quality

Telegramのもう1つの魅力は、グループをサポートしていることです。Botを自分だけのグループに追加することで、過去のやり取りの履歴を簡単に確認できます。また、家族と共有して、家族もBotを通じてノードの機能を呼び出せるようにすることも可能です——もちろん、権限は正しく設定してください。夜中にスクリーンショットを撮られたりしないように(どうしてそんな事を知っているのかは聞かないでください)。

そうそう、TelegramはBotに画像やドキュメントを送信することもできます。例えば、自宅の不要なスマホに1枚の画像を送ると、BotはOpenClawにその画像を分析させたり、指定のディレクトリに保存したりできます。これはある意味で、「クロスデバイスのクリップボード」のような効果を実現しています。

専用アプリと高度な利用シナリオ

Telegramは便利ですが、やはりチャットインターフェースであるため、一部のシナリオでは使い勝手が良くないこともあります。例えば、自宅のカメラ映像を素早くチェックしたい場合や、すべてのノードの状態を1つの画面で確認したい場合などです。そうした時は、専用のアプリを検討することになります。

OpenClawには公式の Web UI があり、デフォルトでは http://localhost:3000 で稼働しています。スマホのブラウザでこのアドレスを開くと、ダッシュボード画面が表示されます。ただし、デフォルトではローカルネットワークのみを監視するため、外部ネットワークからのアクセスにはリバースプロキシの設定が必要です。

私は Nginx を設定し、HTTP Basic 認証を追加した上で、スマホのブラウザでブックマークして使っています。これもなかなか悪くありません。Web UIではすべてのオンラインのノード、それぞれの能力のステータス、そして最新のログを見ることができます。ノードをクリックすることで手動で能力をトリガー(発動)させることができます。例えば、Cameraボタンを押すと、対応するスマホに写真を撮らせることができます。

コミュニティにはサードパーティが開発したコントロールパネルもあり、機能はより洗練されています。例えば「ClawDash」というプロジェクトは、レイアウトのカスタマイズをサポートし、よく使う制御ボタンをホームページに配置できます。ただし、こうしたサードパーティツールは、あなたのゲートウェイに接続されるため、安全性を自分で評価する必要があります。

自動化ワークフロー

より高度な遊び方を紹介しましょう:自動化(Automation)です。OpenClawはイベントをトリガーとしたスキルの実行をサポートしており、これが非常に面白いのです。

例えば、私はジオフェンス(Geofence)を設定しています。私の携帯ノートノード(常に持ち歩いているデバイス)が「家」という地理的範囲に入ると、自宅のパソコンが自動的に「音楽プレイヤーを開く」というスキルを呼び出します。こうすることで、帰宅した時にはすでに音楽が流れている状態になります。

別の例を挙げましょう:定期的なスクリーンショットの撮影です。私は使っていないAndroidスマホに毎朝8時に1回スクリーンショットを撮らせ、その後AIにスクリーンショット内に異常(例えば、家電の電源を切り忘れていないかなど)がないかを分析させます。もし異常があればTelegramでリマインドを送るようにしています。

これらの自動化ルールは、OpenClawの設定ファイルに記述します。フォーマットはおおよそ以下のようになります:

automations:
  - name: "arrive_home"
    trigger:
      type: "geofence"
      device: "iphone-15-main"
      location: "home"
    action:
      target: "macbook-pro"
      skill: "music.play"
  - name: "morning_check"
    trigger:
      type: "schedule"
      cron: "0 8 * * *"
    action:
      target: "android-spare"
      skill: "screen.analyze"

トラブルシューティング

設定のプロセスにおいて、問題に遭遇することは避けられません。私が踏んだ落とし穴をリストアップしておきます:

ゲートウェイに接続できない:まず WebSocket アドレスが正しいか、ポートが通っているかを確認します。curl ws://gateway-ip:port を使ってテストしてみてください。wss の場合は証明書に問題がないことを確認してください。

ノードがオフラインと表示されるが、アプリ内では接続済みと出ている:可能性が最も高いのは、役割(ロール)の宣言が間違っていることです。ノード設定の role"client" ではなく "node" と記入されているか確認してください。

コマンドに反応がない:ゲートウェイのログを確認し、コマンドが正しいノードにルーティングされているか(振り分けられているか)を確認します。デバイスIDを間違って記入し、存在しないノードにコマンドが送信されていることが時々あります。

権限が拒否された(Permission Denied):ノードの permissions 設定とゲートウェイの権限ポリシー(戦略)を確認してください。OpenClawの権限は双方向です。ノードが能力を宣言し、さらにゲートウェイがそのクライアントからの呼び出しを許可して初めて機能します。

まとめ

色々とお話ししましたが、要するに3つのポイントに尽きます:

第一に、OpenClawのGateway Protocol(ゲートウェイプロトコル)は、統合されたデバイス接続の標準を提供しており、あなたのスマホとパソコンが同じ「コントロールプレーン(制御層)」上で対話できるようにします。これは何か黒魔術のようなものではなく、WebSocketとシンプルかつ明確な「役割と能力の宣言メカニズム」を組み合わせたものです。

第二に、スマホをノードとして設定することで、あなたは常に持ち歩けるセンサーと実行端末を手に入れたことになります。カメラ、位置情報、スクリーン——これらは元来スマホ専用のハードウェア機能でしたが、今やあなたのAIエージェントから呼び出すことができるようになりました。

第三に、Telegramや専用アプリをコントロールインターフェースとして用いることで、どこにいても自宅のAIシステムに指示を出すことができます。この体験は、率直に言ってあらゆるクラウドベースの「スマートアシスタント」よりも確かなものです——なぜなら、データと決定権が完全にあなた自身の手の中にあるからです。

もしあなたがまだ試したことがないなら、私のアドバイスはこれです:今夜、家にある使っていないスマホを見つけて、第2章の手順に従って設定してみてください。たとえ「リモートでの写真撮影」といった一つの機能を実現するだけであっても、その「どこからでも目を持っている感覚」はとても不思議で魅力的なものです。

オープンソースコミュニティは常にOpenClawを進化させており、新しいスキルや統合機能が次々と追加されています。現在はLayer 2のハードウェアコントロールですが、将来的にはさらに多くのものを制御できるようになるかもしれません。誰にもわかりません。

少なくとも今、私のスマホは単なるスマホではなくなりました。それは私のAIオペレーティングシステムのリモコンなのです。あなたのスマホも、そうなることができます。

OpenClaw モバイル端ノード設定の完全プロセス

iOSまたはAndroidデバイスをOpenClawノードとして設定する詳細な手順。ゲートウェイ接続、権限設定、Telegram Botによる制御を含みます

⏱️ Estimated time: 30 min

  1. 1

    Step1: 準備作業:OpenClaw ノードアプリのインストール

    iOS ユーザー:
    • TestFlight または AltStore による自己署名を利用して、OpenClaw iOS クライアントをインストールします
    • ノードをオンラインに保つために「バックグラウンドアプリの更新(Background App Refresh)」をオンにします

    Android ユーザー:
    • プラン A:公式APKをインストールし、「バックグラウンド実行を許可する」に設定します
    • プラン B:Termux の中で npm install openclaw を実行します

    注意事項:サブ・デバイスの方が長期間ノードを常駐させるのに適しています。メインのデバイスではバックグラウンド制限の影響を受けやすいからです。
  2. 2

    Step2: ノードの接続パラメータを設定する

    主要なフィールドを入力します:
    • Gateway URL:ws://ローカルエリアネットワークIP:ポート または wss://パブリックドメイン
    • Client ID:一意の識別子、例:"iphone-15-main"
    • Auth Token:ゲートウェイで生成された認証トークン
    • Capabilities:必要に応じて location/camera/screen にチェックを入れます

    セキュリティ設定の提案:
    • 最初にデバイスのキーペアを生成し、公開鍵をゲートウェイに、秘密鍵をノードに保管します
    • 初回の設定では location のみを開放し、テスト通過後に他の権限を開放します
    • 最小権限の原則を使用します。攻撃面は小さければ小さいほど良いです
  3. 3

    Step3: Telegram Bot コントロールの設定

    Botの作成:
    • Telegram内で @BotFather にコンタクトし、/newbot を実行します
    • 取得した Bot Token を保存します

    OpenClaw の設定:
    • channels 設定内に telegram プラグインを追加します
    • mode には polling(個人的な使用)または webhook(高速応答)を選択します
    • skills で、ノードの能力にコマンドをバインドします。例:/camera が camera.snap をトリガーする

    テストコマンド:
    • /camera - リモート写真撮影
    • /where - 位置情報の取得
    • /screenshot - 画面のスクリーンショット
  4. 4

    Step4: 応用:自動化ワークフローの設定

    ジオフェンス(地理的境界)によるトリガー:
    • 特定のエリアへの進入/退出時に自動的にスキルが実行されるように設定します
    • 例:家に着いたら自動的に音楽を再生する

    定期的なタスク:
    • cron表現を使用して定期的なトリガー時間を設定します
    • 例:毎朝8時にスクリーンショットを撮ってチェックする

    トラブルシューティング:
    • ゲートウェイに接続できない場合:WebSocket アドレスと TLS 証明書を確認します
    • ノードがオフラインになる場合:role の値が "node" になっており "client" でないことを確認します
    • コマンドに反応しない場合:ゲートウェイのログを見てルートの正当性を確認します

FAQ

OpenClawノードの設定には、どのような技術的バックグラウンドが求められますか?
求められるハードルはそれほど高くありません:
• 基本的なコマンドライン操作ができること
• WebSocket と Token 認証の概念を理解していること
• yaml ファイルの設定ができること

iOSユーザーの場合、さらに TestFlight または自己署名インストールのプロセスに慣れている必要があります。Androidユーザーで Termux スキームを使用する場合、基本的な Linux コマンドの知識が必要です。総じて、一般的な開発者レベルのスキルがあれば、30分以内で設定を完了できるはずです。
スマホをノードとして使用するとバッテリーの消費は激しいですか?
バッテリーの消費具合は設定に依存します:
• location機能だけをオンにしている場合:消費電力は極めて低く、ほとんど気になりません。
• camera と screen をオンにしている場合:使用時にのみ電力を消費し、普段は影響ありません。
• WebSocket による長時間の接続:ハートビート(死活監視)を維持するための電力消費は非常にわずかです。

アドバイス:サブのスマホを使ってノードを常駐させ、メインのスマホは通常通りに使用するのが良いでしょう。あるいは、リモートコントロールが必要な時だけノードアプリを立ち上げ、使い終わったら閉じるという運用もアリです。iOSユーザーはバックグラウンド制限に注意し、Androidユーザーは各メーカー固有の省電力設定に気をつけてください。
OpenClaw のリモートコントロールは安全ですか?
セキュリティ設計は比較的しっかりしています:
• Token 認証:接続時には有効なトークンの提示が必須です。
• デバイス署名:公開鍵・秘密鍵による検証をサポートしており、Tokenが漏洩しても不正使用を防止できます。
• TLS 暗号化:外部ネットワークからアクセスする際、wss プロトコルを使用し、データ通信を暗号化します。
• 細粒度の権限管理:ノードが能力(ケイパビリティ)を宣言し、ゲートウェイがそれを呼び出すクライアント側の権限を制御します。
• ローカル展開:データはサードパーティのサーバーを経由せず、完全に自己管理(コントロール)下に置かれます。

ベストプラクティス:デバイス署名の強制 + 最小権限の原則 + Tokenの定期的な更新の組み合わせを推奨します。
Telegram Bot と専用アプリ、どちらが使いやすいですか?
それぞれに長所と短所があります:

Telegram Bot:
• メリット:追加のアプリをインストールする必要がなく、いつでもどこでも使用でき、グループでの共有にも対応しています。
• デメリット:チャットのUIは直感的ではなく、複雑な操作には不便です。

専用アプリ / Web UI:
• メリット:視覚的なインターフェースでワンクリックで機能(能力)をトリガーでき、ノードの状態確認も簡単です。
• デメリット:外部ネットワークからのアクセスのためにリバースプロキシの設定が必要であり、アプリを余分にインストールする手間がかかる場合があります。

アドバイス:日常的な使用には Telegram Bot で十分です。複雑なシナリオや頻繁な操作が必要な場合には Web UI を使用することをお勧めします。
スマホ以外に、どのようなデバイスをコントロールできますか?
理論上、OpenClawを実行できるデバイスであれば何でもコントロール可能です:
• パソコン (macOS/Windows/Linux):メインのゲートウェイや他のノードとして。
• Raspberry Pi(ラズベリーパイ):低消費電力で長期間稼働させる理想的な選択肢。
• Android TV / TVボックス:自宅のメディアセンターのリモコンとして。
• 古いスマホ/タブレット:専用の監視用ノードへと改造。

重要な制約は、デバイスが Node.js を実行できるか、あるいは OpenClaw のクライアントが存在し、かつ WebSocket 接続をサポートしている必要がある点にあります。コミュニティの発展に伴い、サポートするデバイスの種類は今後さらに増えていくでしょう。

7 min read · 公開日: 2026年2月26日 · 更新日: 2026年3月3日

コメント

GitHubアカウントでログインしてコメントできます

関連記事