Veo 3 Charakterkonsistenz: Mit Scenebuilder kohärente Mehrfach-Szenen-Videos erstellen

Easton editorial illustration: permission gate hub

Beim ersten Mehrfach-Szenen-Video mit Veo 3 hatte ich ein Skript mit fünf Szenen sorgfältig ausgearbeitet und jeden Clip voller Erwartung einzeln generiert. Das Ergebnis? In Szene eins: schwarze Kurzhaare, blauer Anzug. In Szene zwei plötzlich braune lange Haare und grauer Hoodie. In Szene drei wirkte die Person wie jemand völlig anderes – sogar die Gesichtsform hatte sich verändert.

Wenn Ihnen das auch passiert ist, sind Sie nicht allein. Inkonsistentes Figuren-Aussehen gehört zu den frustrierendsten Problemen bei der KI-Videogenerierung. Nach vielen Tests und Recherchen habe ich jedoch einen wirklich wirksamen Ansatz gefunden. In diesem Artikel teile ich alle Erfahrungen mit Ihnen.

Warum „Charakter-Drift“ in KI-Videos?

Bevor wir Lösungen besprechen, müssen wir verstehen, warum Figuren in KI-Videos ständig wechseln. Erst dann können Sie gezielt gegensteuern.

KI hat ein „Gedächtnisproblem“

Das ist der Kern des Problems. Veo 3, Runway und praktisch alle KI-Videomodelle teilen einen fatalen Mangel: kein Langzeitgedächtnis.

Was bedeutet das? Wenn Sie in der ersten Szene einen Mann im schwarzen Anzug generieren, merkt sich die KI dieses Erscheinungsbild nicht. Beim zweiten Clip ist es eine völlig neue Aufgabe – wie ein Gespräch mit jemandem, der bei jedem Satz alles vergisst und sich neu vorstellen muss.

Am Anfang dachte ich naiv, die KI würde die Figur automatisch konsistent halten. Schließlich war der vorherige Clip doch gerade erst generiert worden – die Daten müssten noch da sein. Später wurde klar: Jeder Prompt wird als isolierte Aufgabe verarbeitet, ohne Bezug zu vorherigen Clips.

Textbeschreibungen sind von Natur aus unpräzise

Das zweite Problem liegt in unseren Prompts.

Denken Sie an „ein Mann im schwarzen Anzug“ – wie viele visuelle Varianten sind damit möglich? 30 oder 50 Jahre alt, asiatisch oder europäisch, italienisches Dreiteiler oder Standard-Business-Anzug. Bei so vagen Beschreibungen variieren die Ergebnisse zwangsläufig.

Wie in einem Restaurant: „Gebratener Reis“ schmeckt bei jedem Koch anders. Für ein reproduzierbares Ergebnis brauchen Sie ein exaktes Rezept – Grammangaben, Eier, Sojasauce, Garzeit. Bei KI gilt dasselbe: Je detaillierter die Beschreibung, desto stabiler das Ergebnis.

Technische Grenzen

Ein weiterer Faktor ist technischer Natur.

Frühe KI-Videos wurden oft Frame für Frame erzeugt: Frame 1, dann Frame 2 auf Basis von Frame 1, dann Frame 3 … Jeder Schritt kann minimale Abweichungen einführen. Am Ende des Clips kann die Figur kaum wiederzuerkennen sein.

Wie beim Stillepost-Spiel: „Das Wetter ist schön heute“ wird am Ende vielleicht zu „Heute Abend essen wir Snacks“.

Branchenumfragen zeigen: Vor Modellen wie Runway Gen-4 und Veo 3.1, die gezielt Charakterkonsistenz optimieren, lagen Nutzerzufriedenheit oft nur bei 3–4 von 10 Punkten. Das Problem ist also weit verbreitet.

Drei Werkzeuge für Charakterkonsistenz in Veo 3

Glücklicherweise hat Google – und andere Anbieter – das Problem erkannt. Veo 3 bietet dedizierte Funktionen dafür, mit spürbarem Effekt. Laut Google Flow steigt die Konsistenz um 60–70 %.

Im Detail:

Werkzeug 1: Reference Images

Exklusiv in Veo 3.1 Standard. Sie laden 1–3 Bilder hoch und sagen der KI im Grunde: „Die Figur soll genau so aussehen – strikt daran halten.“

Die KI extrahiert Merkmale wie Gesichtsform, Frisur, Hautfarbe und Proportionen und versucht, sie im Video wiederzugeben.

Besonders geeignet für:

völlig neue fiktive Charaktere von Grund auf
bestimmte Personen (historische Figuren, Romancharaktere)

Es gibt Grenzen: nur im Standard-Modus, nicht in der Basisversion. Auch hier ist kein perfektes 1:1-Klonen möglich – detaillierte Textbeschreibungen bleiben wichtig.

In Tests mit echten Fotos als Referenz traf die KI die Hauptmerkmale, Details wichen aber ab – Augenfarbe, Haarvolumen. Trotzdem deutlich besser als reine Text-Prompts.

Werkzeug 2: Scenebuilder

Das nutze ich am häufigsten – und am meisten darauf verlasse ich mich. Scenebuilder ist die Kernlösung für konsistente Mehrfach-Szenen.

Prinzip: Die visuellen Informationen der vorherigen Szene dienen als Referenz für die nächste. Wie ein kurzes Gedächtnis: nicht die gesamte Historie, aber zumindest der unmittelbar vorherige Clip.

Wichtige Funktionen:

„Add to Scene“
Wenn eine Szene passt, klicken Sie darauf – der Clip landet auf einer Timeline. Damit signalisieren Sie: „Merke dir dieses Erscheinungsbild, ich brauche es gleich wieder.“

„Extend“
Hauptweg für die nächste Szene. Baut auf dem visuellen Inhalt der vorherigen Szene auf und hält das Figuren-Aussehen möglichst stabil.

„Jump to“
Für harte Schnitte – z. B. von innen nach draußen. Unverbundener Übergang, aber weiterhin mit Fokus auf konsistentes Erscheinungsbild.

Als ich erstmals fünf kohärente Szenen mit Scenebuilder schaffte, war das ein echter Erfolgsmoment. Kleidung, Frisur und Gesicht blieben weitgehend gleich; nur das Licht wich je nach Szene leicht ab – völlig akzeptabel.

Laut Google Flow steigt die Konsistenz um 60–70 %. Statt 3 von 10 zufriedenstellenden Versuchen erreichen Sie eher 6–7 – ein qualitativer Sprung.

Werkzeug 3: Ingredients to Video

Besonders für komplexe Szenen – vor allem mehrere Figuren gleichzeitig.

Workflow:

Mit Gemini 2.5 Flash Image oder anderen Tools Referenzbilder für jede Figur und Szenenelemente erstellen
Diese „Ingredients“ in Veo 3 hochladen
Mit Ingredients to Video alles in einer Szene zusammenführen

Jede Figur hat eine klare visuelle Referenz; die KI muss nichts erfinden. Für ein Dialog zweier Personen: zuerst A und B einzeln als Referenz, dann die Dialogszene synthetisieren.

Für Single-Protagonist-Geschichten reicht Scenebuilder meist. Bei Multi-Charakter-Interaktion ist Ingredients to Video oft die beste Wahl.

Praxis: Kohärente Videos mit Scenebuilder

Genug Theorie – jetzt Schritt für Schritt. Auch beim ersten Mal mit Veo 3 können Sie mit dieser Anleitung durchstarten.

Schritt 0: Character Bible erstellen

Oft übersehen, aber am wichtigsten.

Bevor Sie Veo 3 öffnen, nehmen Sie sich 15–30 Minuten für ein detailliertes Charakterdokument – die „Character Bible“. Enthalten sein sollten:

Basis: Alter, Geschlecht, Ethnie
Haar: Länge, Farbe, Textur, Frisur (z. B. „schulterlange, wellige schwarze Haare, Mittelscheitel, leicht nach außen gewellte Spitzen“)
Gesicht: Augenfarbe, Augenbrauen, Nase, Kinnlinie, markante Merkmale (Muttermale, Narben)
Körper: Statur, Größenwirkung, Haltung
Kleidung: Typ, Farbe, Material, Passform, Accessoires

Je detaillierter, desto besser. Ziel: 100–150 Wörter.

Beispiel:

Eine 28-jährige asiatische Frau, schwarzes glattes Haar im tiefen Pferdeschwanz, dunkelbraune Augen, leicht kräftige Augenbrauen, kleine Nase, rundes Kinn. Weißes Baumwoll-T-Shirt (leicht locker, Rundhals), dunkelblaue Jeans (schmal geschnitten, hochgekrempelte Beine), weiße Canvas-Sneaker. Schlank, aber nicht dürr, selbstbewusste Haltung, leicht erhobenes Kinn. Am linken Handgelenk eine schmale silberne Uhr.

So konkret lässt der KI wenig Spielraum – genau das wollen Sie.

Viele finden das mühsam. 15 Minuten Vorbereitung können aber 3 Stunden wiederholter Generierung sparen.

Schritt 1: Referenzszene generieren

Google Flow öffnen, Veo 3 wählen, die vollständige Charakterbeschreibung einfügen und Aktion sowie Szene für den ersten Clip ergänzen.

Beispiel:

[Vollständige Charakterbeschreibung einfügen]. Sie steht vor einem Café, schiebt die Glastür auf und tritt ein. Halbtotal, leichter Push-in. Weiches Tageslicht, warme Nachmittagsstimmung.

Generieren.

Wichtig: Der erste Clip braucht oft mehrere Versuche. Nicht hetzen, nicht Kompromisse eingehen. Die erste Szene ist der Maßstab für alle folgenden – wenn sie nicht stimmt, scheitert die ganze Serie.

Ich generiere meist 3–5 Mal und prüfe:

Stimmen Gesichtsmerkmale?
Passt die Kleidung?
Entspricht der Stil der Vorstellung?
Qualität (Komposition, Licht)?

Erst wenn alles passt, geht es weiter.

Schritt 2: Zur Szene hinzufügen

Unter dem zufriedenstellenden Video erscheinen mehrere Buttons. „Add to Scene“ klicken.

Die Ansicht wechselt zur Timeline; Ihr Clip steht an erster Stelle. Die erste Szene ist damit fixiert.

Der Klick wirkt trivial, bedeutet aber: Veo 3 soll dieses Erscheinungsbild als Standard merken.

Schritt 3: Neue Szene hinzufügen

Auf der Timeline „+“ klicken.

Das System fragt nach dem Szenentyp:

Extend: nahtlose Fortsetzung von Aktion und Setting
Jump to: neues Setting, gleiches Figuren-Aussehen

Für direkte Fortsetzung (z. B. nach dem Betreten zur Theke gehen) → Extend.

Für harten Szenenwechsel (z. B. bereits am Tisch mit Kaffee) → Jump to.

Meist wähle ich Extend – die beste Kontinuität.

Schritt 4: Prompt für die neue Szene

Der kritischste Schritt – hier passieren die meisten Fehler.

Viele kürzen ab: „Sie geht zur Theke und bestellt Kaffee.“

Falsch!

Die KI nutzt zwar die vorherige Szene visuell, aber der Text-Prompt bleibt die Hauptreferenz. Ohne vollständige Charakterbeschreibung driftet das Erscheinungsbild.

Richtig: Charakterbeschreibung wörtlich kopieren, nur Aktion und Szene anpassen.

Beispiel:

[Exakt dieselbe Charakterbeschreibung wie in Szene 1]. Sie geht zur hölzernen Theke und lächelt den Barista an. Kamera folgt von der Seite. Weiches Tageslicht beibehalten.

Kein Wort an der Figurenbeschreibung geändert – nur Aktion und Kamera.

Das ist die Verbatim Rule. Tests zeigen: vollständige vs. verkürzte Beschreibung – bis zu 40 % Unterschied in der Konsistenz. Das entscheidet zwischen „gerade noch brauchbar“ und „professionell kohärent“.

Mühsam, ja. Solange KI kein echtes Langzeitgedächtnis hat, bleibt Copy & Paste Pflicht.

Schritt 5: Generieren und prüfen

Generieren – Wartezeit etwa 30 Sekunden bis 2 Minuten.

Sofort vergleichen:

Frisur noch gleich?
Gleiche Kleidung?
Gesichtsmerkmale abweichend?
Wirkt es noch wie dieselbe Person?

Ab 8/10 können Sie akzeptieren.

Bei 6–7/10 mit kleinen Abweichungen: akzeptieren oder Prompt anpassen und neu generieren.

Unter 5/10: neu generieren. Charakterbeschreibung nicht ändern – nur Szene oder Kamera anpassen.

Schritt 6: Gesamte Sequenz aufbauen

Mit derselben Methode Szene 3, 4, 5 hinzufügen.

Nach jedem Clip die gesamte Sequenz abspielen – einzelne Szenen können passen, in der Abfolge aber stören.

Nicht zu lang werden lassen. Ein Veo-3-Clip dauert 5–8 Sekunden; 5–7 Szenen (ca. 30–50 Sekunden) sind ein guter Rahmen. Länger → Konsistenz sinkt, Zeit und Credits steigen.

Fortgeschrittene Tipps (optional)

1. Negative Prompts

Hinter die Charakterbeschreibung: „no hat, no glasses, no beard, no accessories“ – wenn die Figur diese Elemente nicht haben soll.

Verhindert zufällige Zusätze. Einmal bekam Szene 4 plötzlich eine Sonnenbrille – mit Negative Prompt war das Problem weg.

2. Beleuchtung konsistent halten

Plötzliche Lichtwechsel erschweren die Wiedererkennung. Von hellem Innenraum zu dunkler Nachtstraße kann das Aussehen verzerren.

Bei Szenenwechsel ähnliche Lichtverhältnisse wählen oder Übergangsszenen einplanen.

3. Extreme Kamerawinkel vermeiden

Frosch- oder Vogelperspektive erschwert die Gesichtserkennung – Folgeszenen werden ungenauer.

Erst normale Winkel (Augenhöhe, leichte Neigung), spezielle Winkel erst wenn die Figur stabil ist.

4. Prompt-Vorlagenbibliothek

Charakterbeschreibungen in Notion, Google Docs o. Ä. speichern – immer kopieren, nie neu tippen.

Ich habe 5–6 Typen (Mann, Frau, Senior, Kind) als Vorlagen – pro Projekt anpassen, Grundgerüst bleibt.

Prompt-Management und Optimierung

Neben Scenebuilder selbst entscheidet die Prompt-Qualität über den Erfolg.

Grundstruktur eines Prompts

Ein guter Veo-3-Prompt hat vier Teile:

[Vollständige Charakterbeschreibung] + [Aktion/Szene] + [Kamerabewegung] + [Stil/Atmosphäre]

Beispiel 1: Einfache Szene

Ein 35-jähriger weißer Mann, kurzes braunes Haar mit leichtem Grau, blaue Augen, gepflegter Bart, dunkelblauer Anzug mit weißem Hemd und dunkelrotem Schlips, durchschnittliche Statur, formelle Haltung. Er geht eine Stadtstraße entlang und schaut sich um. Halbtotal, leichte Kameraführung. Sanftes Morgenlicht, moderne Urban-Atmosphäre.

Beispiel 2: Dialog innen

Eine 28-jährige asiatische Frau, schwarzes glattes Haar im tiefen Pferdeschwanz, dunkelbraune Augen, weißes T-Shirt mit dunkelblauer Jeans, schlanke Figur, selbstbewusste Haltung. Sie sitzt an einem Holztisch im Café, lächelt in die Kamera, hält eine Kaffeetasse mit beiden Händen. Frontale Halbnah, feste Kamera. Warmes Innenlicht, unscharfer Café-Hintergrund.

Beispiel 3: Action

Ein 22-jähriger schwarzer Mann, kurze Locken, dunkelbraune Augen, grauer Hoodie und schwarze Jogginghose, kräftige Statur, sportliche Haltung. Er joggt entspannt durch einen Park. Seitenverfolgung, Kamera folgt der Figur. Frühes Tageslicht, grüne Bäume im Hintergrund.

Die Figurenbeschreibung ist immer am ausführlichsten; Aktion und Szene kürzer; Kamera und Stimmung ergänzend.

Goldene Regel für Charakterbeschreibungen

Noch einmal, weil es so wichtig ist:

Bei jeder neuen Szene die Charakterbeschreibung vollständig kopieren – kein Wort ändern.

KI interpretiert Sprache probabilistisch. „Weißes T-Shirt“ vs. „weißes, weißes T-Shirt“ – für Menschen gleich, für die KI leicht unterschiedliche Inputs.

Kleine Abweichungen summieren sich über 5–10 Szenen – am Ende driftet die Figur wieder.

Also: nicht kürzen, nicht umformulieren, nicht vereinfachen. Copy & Paste, unverändert.

Wer die Verbatim Rule einhält, erreicht im Schnitt 8,5/10; bei freier Umformulierung nur 5–6/10.

Szenenübergänge

Tipp 1: Umgebungskontinuität

Café → Strand wirkt hart und verwirrt die KI leichter. Logische Abfolge: Café innen → Café-Eingang → Straße → Park.

Tipp 2: Übergangsszenen

Bei großen Sprüngen eine Brücke einplanen – z. B. „Sie öffnet die Tür, Sonnenlicht fällt herein.“

Tipp 3: Zeitliche Fortsetzung

Wörter wie „dann …“, „anschließend …“ signalisieren Kontinuität.

Falsch: „Sie sitzt am Tisch und trinkt Kaffee.“ (abrupt)
Richtig: „Sie geht zum Tisch, setzt sich und nimmt einen Schluck Kaffee.“ (fließend)

Meine Vorlagenbibliothek

Vorlage 1: Urbaner Mann

Ein 32-jähriger asiatischer Mann, schwarzes kurzes Haar ordentlich nach hinten gekämmt, dunkelbraune Augen, leichter Stoppeln, grauer Strickpullover mit schwarzer Stoffhose, durchschnittliche Statur, entspannte aber präsente Haltung.

Vorlage 2: Berufstätige Frau

Eine 29-jährige weiße Frau, goldbraunes schulterlanges welliges Haar, hellblaue Augen, beiges Hemd mit dunkelgrauer Anzughose, schwarze flache Pumps, schlanke Figur, professionelle selbstbewusste Haltung.

Vorlage 3: Street-Style-Jugendlicher

Ein 19-jähriger Latino, schwarzes mittellanges leicht lockiges Haar, dunkelbraune Augen, schwarzes bedrucktes T-Shirt mit blauen zerrissenen Jeans und weißen Sneakern, schlank und groß, lässige entspannte Haltung.

Speichern, bei Bedarf Frisur oder Kleidung anpassen – das Grundgerüst bleibt nutzbar.

Häufige Probleme und Lösungen

Problem 1: Trotz Scenebuilder verändert sich die Figur

Symptome: Szene 1–2 ok, ab 3–4 andere Kleidungsfarbe, Frisur, Gesicht.

Ursachen:

Leicht abweichende Prompts (verkürzte Beschreibung)
Zu starker Licht- oder Szenenwechsel
Extreme Kamerawinkel

Lösung: Alle Prompts öffnen und die Charakterteile Zeichen für Zeichen vergleichen – oft „dunkelblauer Anzug“ vs. „blauer Anzug“ oder fehlende Details. Vereinheitlichen, neu generieren.

Bei starkem Lichtwechsel: ähnliche Beleuchtung oder im Prompt „gleiches Charakteraussehen beibehalten“ betonen.

Bei Frosch-/Vogelperspektive: auf normale Winkel zurück, erst später experimentieren.

Ein Projekt scheiterte in Szene 4 an Ultra-Weitwinkel-Froschperspektive – Gesicht verzerrt, KI erkannte die Figur nicht. Mit Augenhöhe war das Problem weg.

Problem 2: Keine Reference Images

Reference Images ist Veo 3.1 Standard exklusiv – Basisversion hat es nicht.

Upgrade: AI Ultra (250 $/Monat). Für ernsthafte KI-Video-Produktion oft sinnvoll.

Ohne Upgrade: Scenebuilder + detaillierte Textbeschreibung reicht für viele Projekte – ich nutze Reference Images nicht überall.

Alternative: Charakter-Referenz mit Midjourney oder Stable Diffusion, dann extrem detailliert textuell beschreiben.

Problem 3: Langsam und teuer

Realität: KI-Video ist derzeit langsam und kostspielig – technologische Phase, nicht Ihr Fehler.

Optimierung:

Strategie 1: Vorbereitung
Nicht sofort generieren. 1 Stunde für Skript, Character Bible und alle Prompts – dann erst Clips. Blindes Trial-and-Error verbrennt Credits.

Strategie 2: Günstige Vorbereitung
Whisk (kostenlos) für Charakter-Referenzen, Leonardo.ai oder Ideogram für Szenen – Aussehen visuell fixieren, dann in Veo 3 animieren.

Strategie 3: Nur Schlüsselszenen
Nicht jeder Clip muss Veo 3 sein. Übergänge und Weitwinkel mit Pika, Runway Basic oder Stock-Material.

Bei einem 7-Szenen-Projekt: 5 mit Veo 3, 2 mit Pexels – im Schnitt unsichtbar, Kosten halbiert.

Problem 4: Mehrere Figuren gleichzeitig

Jede Figur braucht eine lange Beschreibung – Prompt-Limits, Verwechslungsrisiko.

Prioritäten: 80 % Aufwand auf die Hauptfigur.

Ingredients to Video: Referenz pro Figur, dann zusammenführen.

Montage: Keine Gemeinschaftsszenen – Einzelclose-ups wechseln, Voice-over verbindet. Wirkt oft professioneller als technische Kompromisse.

Abschluss

Charakterkonsistenz bleibt eine der größten Herausforderungen – auch mit Scenebuilder und Reference Images gibt es keine 100-%-Garantie. Fehlversuche und Wiederholungen gehören dazu.

Mit systematischem Vorgehen – Character Bible, striktes Prompt-Management, korrekter Scenebuilder-Einsatz – können Sie von 3 auf 8 Punkten kommen. Der Unterschied zwischen „offensichtlich KI“ und „wirkt professionell produziert“.

Von anfänglichem Chaos zu stabilen Mehrfach-Szenen-Videos brauchte ich etwa zwei Wochen und hunderte Generierungen. Wenn dieser Artikel Ihnen Umwege erspart, hat er seinen Zweck erfüllt.

Kleine Projekte zuerst: Kein 10-Minuten-Film als Erstes. 2–3 Szenen zum Üben – Flow lernen, Vorlagen sammeln. Wenn 3 konsistente Clips klappen, auf 5–7 erweitern.

Rom wurde nicht an einem Tag gebaut – Skills auch nicht.

Öffnen Sie Google Flow, erstellen Sie Ihre erste Character Bible und legen Sie los. Erfolge oder Fragen gerne in die Kommentare – ich bin gespannt auf Ihre Ergebnisse.

Viel Erfolg – und mögen Ihre Figuren konsistent bleiben.

FAQ

Warum verändern sich Figuren in KI-Videos ständig?

Drei Kernursachen:

1) KI hat kein Langzeitgedächtnis – jeder Prompt ist eine eigenständige Aufgabe

2) Textbeschreibungen sind unpräzise – vage Formulierungen führen zu unterschiedlichen Ergebnissen

3) Technische Grenzen – bei Frame-für-Frame-Generierung summieren sich Abweichungen

Mit Tools wie Scenebuilder lässt sich die Konsistenz um 60–70 % steigern.

Wie nutze ich Scenebuilder für Charakterkonsistenz?

6-Schritte-Workflow:

1) Character Bible erstellen (100–150 Wörter detaillierte Beschreibung)

2) Referenzszene generieren (3–5 Versuche, bestes Ergebnis wählen)

3) Zur Szene hinzufügen (Add to Scene klicken)

4) Neue Szene hinzufügen (Extend oder Jump to wählen)

5) Charakterbeschreibung wörtlich wiederholen (Copy & Paste)

6) Generieren und prüfen (ab 8/10 akzeptabel)

Warum muss die Charakterbeschreibung wörtlich wiederholt werden?

Das ist die Verbatim Rule.

Effektvergleich:
• Unterschied zwischen vollständiger und verkürzter Beschreibung: bis zu 40 %
• Wer die Regel einhält: durchschnittlich 8,5/10
• Bei freier Umformulierung: nur 5–6/10

Grund: KI versteht Sprache probabilistisch – „weißes T-Shirt“ und „weißes, weißes T-Shirt“ können unterschiedliche Ergebnisse liefern.

Wo finde ich die Reference-Images-Funktion?

Reference Images ist exklusiv im Veo 3.1 Standard-Modus und erfordert ein AI-Ultra-Abo (250 $/Monat).

Ohne Upgrade möglich:
• Scenebuilder + detaillierte Textbeschreibung
• Charakter-Referenzbild mit anderem Tool erstellen, dann detailliert beschreiben

Wie halte ich mehrere Figuren gleichzeitig konsistent?

Drei Strategien:

1) Prioritäten setzen – 80 % Aufwand auf die Hauptfigur

2) Ingredients to Video nutzen – jede Figur einzeln als Referenz generieren, dann zusammenführen

3) Montage statt Gemeinschaftsszenen – Einzelaufnahmen statt mehrerer Figuren im selben Bild

Wie senke ich Kosten und steigere die Effizienz?

Drei Strategien:

1) Gründlich vorbereiten – alle Prompts vorab schreiben

2) Günstige Tools für die Vorbereitung (Whisk, Leonardo.ai für Charakter-Referenzbilder)

3) Nur Schlüsselszenen generieren – Übergänge mit günstigen Tools oder echtem Material

15 Minuten für eine Character Bible sparen bis zu 3 Stunden wiederholter Generierung.

12 Min. Lesezeit · Veröffentlicht am: 7. Dez. 2025 · Aktualisiert am: 14. Juli 2026

Easton

AI & Intelligenz

Veo 3 Charakterkonsistenz: Mit Scenebuilder kohärente Mehrfach-Szenen-Videos erstellen

Warum „Charakter-Drift“ in KI-Videos?

KI hat ein „Gedächtnisproblem“

Textbeschreibungen sind von Natur aus unpräzise

Technische Grenzen

Drei Werkzeuge für Charakterkonsistenz in Veo 3

Werkzeug 1: Reference Images

Werkzeug 2: Scenebuilder

Werkzeug 3: Ingredients to Video

Praxis: Kohärente Videos mit Scenebuilder

Schritt 0: Character Bible erstellen

Schritt 1: Referenzszene generieren

Schritt 2: Zur Szene hinzufügen

Schritt 3: Neue Szene hinzufügen

Schritt 4: Prompt für die neue Szene

Schritt 5: Generieren und prüfen

Schritt 6: Gesamte Sequenz aufbauen

Fortgeschrittene Tipps (optional)

Prompt-Management und Optimierung

Grundstruktur eines Prompts

Goldene Regel für Charakterbeschreibungen

Szenenübergänge

Meine Vorlagenbibliothek

Häufige Probleme und Lösungen

Abschluss

FAQ

Veo3 Guide

Veo 3 Audiogenerierung komplett: KI-Videos mit Dialog, SFX und Musik (Prompt-Vorlagen)

Veo 3 Image-to-Video in der Praxis: Präzise Videosteuerung mit Reference Image

Veo-3-Prompts schreiben: 5-Schritte-Formel + 10 Vorlagen für filmreife KI-Videos

Wie viel kostet Veo 3 pro Monat? Pro vs. Ultra im Vergleich und Spartipps

Kommentare

Warum „Charakter-Drift“ in KI-Videos?

KI hat ein „Gedächtnisproblem“

Textbeschreibungen sind von Natur aus unpräzise

Technische Grenzen

Drei Werkzeuge für Charakterkonsistenz in Veo 3

Werkzeug 1: Reference Images

Werkzeug 2: Scenebuilder

Werkzeug 3: Ingredients to Video

Praxis: Kohärente Videos mit Scenebuilder

Schritt 0: Character Bible erstellen

Schritt 1: Referenzszene generieren

Schritt 2: Zur Szene hinzufügen

Schritt 3: Neue Szene hinzufügen

Schritt 4: Prompt für die neue Szene

Schritt 5: Generieren und prüfen

Schritt 6: Gesamte Sequenz aufbauen

Fortgeschrittene Tipps (optional)

Prompt-Management und Optimierung

Grundstruktur eines Prompts

Goldene Regel für Charakterbeschreibungen

Szenenübergänge

Meine Vorlagenbibliothek

Häufige Probleme und Lösungen

Abschluss

FAQ

Veo3 Guide

Veo 3 Audiogenerierung komplett: KI-Videos mit Dialog, SFX und Musik (Prompt-Vorlagen)

Veo 3 Image-to-Video in der Praxis: Präzise Videosteuerung mit Reference Image

Ähnliche Beiträge

Veo-3-Prompts schreiben: 5-Schritte-Formel + 10 Vorlagen für filmreife KI-Videos

Wie viel kostet Veo 3 pro Monat? Pro vs. Ultra im Vergleich und Spartipps

Kommentare