Sprache wechseln
Design wechseln

Keine API-Rechnungsangst mehr: 80 % OpenClaw-Kosten mit Modell-Routing sparen

Letzten Monat kam die Anthropic-Rechnung – 340 $, dreimal höher als erwartet. Der OpenClaw-Assistent hatte nur Alltagskram erledigt: Mails beantworten, Notizen sortieren, ab und zu Code-Snippets schreiben. Wie konnte das so viel kosten?

In den Logs fiel auf: In der Standardkonfiguration lief jede Anfrage über das teuerste Claude Opus 4.6. Heartbeat-Checks, einfache Abfragen, Dateioperationen – alles gleich behandelt. Bei parallelen Sub-Agents zahlte jeder mit.

Ein Wochenende mit OpenClaws Modell-Routing später war klar: Mit intelligenter Schichtung erledigen „günstige“ Modelle einfache Arbeit; nur echte Denkarbeit geht an die „teuren“. Ein Monat später: 68 $ Rechnung.

Günstig „Garneelen züchten“: ArkClaw macht KI-Agenten erschwinglich

OpenClaw (der „Hummer“) ist beliebt, aber die Einrichtung schreckt ab? ByteDance Volcano Engine bringt mit ArkClaw die Hürde auf den Boden. Kein Server- und Token-Gefummel – ein Klick, und Sie haben einen 24/7-Agenten, der Browser steuert, Skripte ausführt und Kalender verwaltet.

Der Preis stimmt: 9,9 Yuan/Monat; mit Einladungscode ZLKUK54M (hier registrieren) nur 8,9 Yuan. Entwickler: Coding Plan Pro kann kostenlos dazukommen.

OpenClaws Kostenfalle verstehen

Warum ist die Standardkonfiguration so teuer?

Einige ernüchternde Zahlen:

ModellEingabe ($/MTok)Ausgabe ($/MTok)Einsatz
Claude Opus 4.6$5.00$25.00Komplexes Reasoning, lange Dokumente
Claude Sonnet 4.5$0.80$4.00Allgemeine Tasks, Code
Claude Haiku 3.5$0.25$1.25Einfache Abfragen, schnelle Antworten
Llama 3 (lokal)$0$0Heartbeat, Dateiops, Basis-Q&A

MTok = Million Tokens, 1 Mio. Token

Einfache Rechnung: 100 Nachrichten/Tag, je 500 Tokens im Schnitt.

Nur Opus: 100 × 500 × $5 / 1.000.000 = $0,25/Tag, also $7,5/Monat.

Klingt okay?

Zu naiv. OpenClaws System-Prompt allein: 2k–4k Tokens, plus Tool-Calls, Retries … real 3–5× der nackten Schätzung.

Versteckte Kostenfallen

Falle 1: Heartbeat-Anfragen

Alle 30 Sekunden ein Heartbeat – 2.880× pro Tag. Jeder Heartbeat schickt den vollen System-Prompt mit, auch ohne Inhalt.

Reine Token-Steuer.

Falle 2: Sub-Agents

Bei parallelen Tasks nutzt jeder Sub-Agent das Hauptmodell. „Kalender checken“ über Opus – schmerzhaft.

Falle 3: Retry-Mechanismus

Bei Netzwerkproblemen automatische Retries: Tokens verbraucht, kein Ergebnis. Geld weg, Aufgabe offen.

Dreischicht-Modell-Routing

Kernidee: Aufgaben schichten

Nicht jede Anfrage braucht das teuerste Modell.

Drei Schichten:

┌─────────────────────────────────────────────┐
│  Schicht 1: Lokale Modelle (Llama 3 / Qwen) │
│  → Heartbeat, Dateiops, einfache Q&A, Status │
│  → Kosten: $0                               │
├─────────────────────────────────────────────┤
│  Schicht 2: Leichtes Cloud (Haiku / GPT-4o-mini)│
│  → Alltagsdialog, Mail-Entwürfe, einfacher Code│
│  → Kosten: $0,25/MTok                        │
├─────────────────────────────────────────────┤
│  Schicht 3: Schwerlast (Opus / GPT-4o)       │
│  → Architektur, Tiefe, kreatives Schreiben   │
│  → Kosten: $5/MTok (wenig Volumen)           │
└─────────────────────────────────────────────┘

Passendes Modell für passende Aufgabe.

Praxis: OpenClaw + Ollama lokal

Schritt 1: Ollama installieren und starten

# macOS/Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows nach Installer
ollama serve

# Passende Modelle ziehen
ollama pull llama3.2:latest      # leicht, einfache Tasks
ollama pull qwen2.5:14b          # stärker, Tool-Calling

Schritt 2: OpenClaw auf lokales Modell

~/.openclaw/openclaw.json bearbeiten:

{
  "models": {
    "defaults": {
      "model": "ollama/qwen2.5:14b",
      "fallbacks": [
        "anthropic/claude-sonnet-4-5",
        "anthropic/claude-opus-4-6"
      ]
    },
    "providers": {
      "ollama": {
        "type": "openai-compatible",
        "baseUrl": "http://127.0.0.1:11434/v1",
        "apiKey": "ollama"
      }
    }
  }
}

Wichtig:

  • baseUrl: Ollama Standard-Port 11434
  • context window: OpenClaw braucht mindestens 64k – Modell beachten
  • tool calling: nicht jedes lokale Modell; qwen2.5 oder mistral-nemo empfohlen

Erweitertes Routing nach Task-Typ

OpenRouter Auto Model:

{
  "models": {
    "defaults": {
      "model": "openrouter/openrouter/auto",
      "fallbacks": [
        "anthropic/claude-sonnet-4-5"
      ]
    }
  }
}

OpenRouter Auto wählt nach Prompt-Komplexität das günstigste passende Modell.

Eigene Routing-Regeln (iblai-openclaw-router):

Für feinere Steuerung das Open-Source-Tool iblai-openclaw-router:

{
  "routing": {
    "enabled": true,
    "tiers": {
      "free": {
        "models": ["ollama/llama3.2"],
        "keywords": ["heartbeat", "status", "ping", "check"]
      },
      "cheap": {
        "models": ["anthropic/claude-haiku-3-5"],
        "maxCostPerRequest": 0.001
      },
      "standard": {
        "models": ["anthropic/claude-sonnet-4-5"]
      },
      "premium": {
        "models": ["anthropic/claude-opus-4-6"],
        "keywords": ["architect", "design", "analyze deeply", "complex"]
      }
    }
  }
}

Praxis: Monatskosten im Vergleich

Rechnung vor der Optimierung

Typische Monatsnutzung eines Entwicklers (Community-Daten):

VerwendungAnfragenToken (gesch.)ModellKosten
Alltagsdialog800400kOpus 4.6$10.00
Code-Hilfe200600kOpus 4.6$18.00
Heartbeat86.400172MOpus 4.6$860.00
Dateioperationen15075kOpus 4.6$1.88
Sub-Agent-Tasks300450kOpus 4.6$13.50
Summe$903.38

Heartbeat allein: $860. Der Hauptverursacher.

Rechnung nach der Optimierung

Mit Dreischicht-Routing:

VerwendungAnfragenToken (gesch.)ModellKosten
Alltagsdialog800400kSonnet 4.5$1.60
Code-Hilfe200600kOpus 4.6$18.00
Heartbeat86.400172MLlama 3 (lokal)$0
Dateioperationen15075kLlama 3 (lokal)$0
Sub-Agent-Tasks300450kSonnet 4.5$1.80
Summe$21.40
97,6 %
Ersparnis

Extremes Beispiel – sehr hoher Heartbeat-Anteil. Realistisch 70–80 %, je nach Nutzung.

Erwartete Ersparnis nach Szenario

SzenarioVorher/MonatNachherErsparnis
Leicht (<100 Nachr./Tag)$50–80$15–2570 %
Mittel (100–500 Nachr./Tag)$200–400$50–10075 %
Schwer (>500 Nachr./Tag + Sub-Agents)$500–1.000$100–25080 %

Fallstricke und Lösungen

Lokales Modell antwortet nicht / Fehler

Symptome:

Error: Connection refused
oder leere Modellantwort

Checkliste:

  1. Ollama läuft: ollama list
  2. Port: curl http://127.0.0.1:11434/api/tags
  3. Modell geladen: ollama pull qwen2.5:14b
  4. Kontextfenster: manche Modelle nur 4k – OpenClaw braucht 64k+

Empfohlene Kombination:

ollama pull qwen2.5:14b-instruct    # Tool-Calling, gut für Chinesisch
ollama pull mistral-nemo:latest     # ausgewogen
ollama pull glm-4.7-flash           # leicht, schnell

Tool-Calling schlägt fehl

Ursache: nicht jedes lokale Modell unterstützt Function Calling.

Lösung:

  • Modelle mit Tool Use (qwen2.5, mistral-nemo)
  • Tools für bestimmte Modelle abschalten:
{
  "models": {
    "ollama/llama3.2": {
      "supportsTools": false
    }
  }
}

Fallback-Kette falsch

Typischer Fehler:

// Falsch: Bei Anthropic-Limit sind Sonnet und Opus oft beide weg
"fallbacks": [
  "anthropic/claude-sonnet-4-5",
  "anthropic/claude-opus-4-6"
]

// Richtig: Fallback über Anbieter
"fallbacks": [
  "anthropic/claude-sonnet-4-5",
  "openai/gpt-4o",
  "google/gemini-pro"
]

Qualität sinkt?

Wenn lokale Modelle an Grenzen stoßen:

  1. Stufenweise hoch: lokal → Haiku → Sonnet → Opus
  2. Keyword-Trigger: Komplexität im Prompt markieren
  3. Manuelle Prüfung: wichtige Tasks erst nach Bestätigung

Fazit und Checkliste

Kurz:

  1. Kosten vor allem durch Heartbeat und einfache Abfragen, nicht durch „große“ Tasks
  2. Lokale Modelle reichen für Alltagskram – Opus-Kontingent nicht verschwenden
  3. Fallback über Anbieter – kein Single Point of Failure
  4. Klein anfangen: Heartbeat lokal – sofort spürbar

Drei Schritte diese Woche

  • Ollama installieren, leichtes Modell (llama3.2 oder qwen2.5:7b)
  • ~/.openclaw/openclaw.json: Standardmodell auf lokal
  • Eine Woche Rechnung beobachten, Routing feintunen

Weiterführend

  • iblai-openclaw-router für intelligente Task-Stufen
  • Prompt Caching gegen wiederholte Aufrufe
  • Erfolgsrate und Latenz pro Modell überwachen

Haben Sie OpenClaw-Rechnungen optimiert? Welche Strategie? Teilen Sie Erfahrungen in den Kommentaren oder stellen Sie Konfigurationsfragen – ich antworte, wenn möglich.

FAQ

Beeinflusst OpenClaw-Modell-Routing die Antwortqualität?
Bei sinnvoller Konfiguration nicht. Entscheidend ist die Schichtung nach Aufgabenkomplexität: Heartbeat, Dateioperationen und ähnliche einfache Tasks reichen mit lokalem Modell völlig aus; nur komplexes Reasoning und kreatives Schreiben brauchen Claude Opus. Starten Sie mit einfachen Tasks und bauen Sie Vertrauen schrittweise auf.
Welche Hardware braucht ein lokales Modell?
Leichte Tasks (llama3.2, qwen2.5:7b): 8 GB RAM reichen flüssig; 14B-Modelle: 16 GB empfohlen; 32B+ mit dedizierter GPU. Für reine Heartbeat-Checks reicht sogar ein 3B-Ultraleichtmodell.
Wie sollte die Fallback-Kette sortiert sein?
Nach Kosten-Leistungs-Balance: lokales Modell → leichtes Cloud (Haiku) → Standard-Cloud (Sonnet/GPT-4o) → Schwerlast (Opus). Fallback über Anbieter hinweg konfigurieren, damit bei Anthropic-Rate-Limits nicht die ganze Kette ausfällt.
Wie viel lässt sich typischerweise sparen?
Je nach Nutzung 70–80 %. Leichte Nutzer (&lt;100 Nachrichten/Tag): von 50–80 $ auf 15–25 $/Monat; schwere Nutzer (&gt;500 Nachrichten/Tag): von 500–1.000 $ auf 100–250 $. Je höher der Heartbeat-Anteil, desto stärker die Ersparnis.

5 Min. Lesezeit · Veröffentlicht am: 26. Feb. 2026 · Aktualisiert am: 20. Juni 2026

Ähnliche Beiträge

Kommentare

Melde dich mit GitHub an, um einen Kommentar zu hinterlassen