Sprache wechseln
Design wechseln

Veo 3 Audiogenerierung komplett: KI-Videos mit Dialog, SFX und Musik (Prompt-Vorlagen)

Veo 3 fügt Videos nicht automatisch Ton hinzu. Selbst wenn im Prompt steht: "A woman says: 'Hello'" – ohne richtiges Qualitätsprofil oder klare Audio-Beschreibung landen Sie bei einem stummen Clip.

Bei der I/O 2025 stellte Google Veo 3 mit nativem Audio vor: Dialog, Soundeffekte und Musik können mit dem Bild mitgeneriert werden. Die Funktion ist nicht standardmäßig aktiv – Sie müssen im Prompt festlegen, wer was sagt, welche Geräusche die Szene hat und bei Mehrpersonen-Dialogen, wer wann spricht. Lippensync bei Einzeldialog liegt bei etwa 80 %, bei Mehrpersonen unter 40 %, bei Chinesisch oft nur um 30 %.

Dieser Artikel erklärt die Logik der Veo-3-Audiogenerierung, liefert Prompt-Vorlagen für Dialog, SFX und Musik sowie Checklisten für fünf häufige Probleme.

Veo-3-Audio: Schluss mit stummen KI-Videos

Was native Audiogenerierung bedeutet

Klassischer Ablauf bei KI-Video: zuerst Bild, dann Sprecher, Aufnahme, SFX, Mix – laut Schätzungen von Promise Studios im Schnitt etwa vier Stunden.

Veo 3 drückt das auf etwa drei Minuten.

Technisch nutzt es eine „Dual-Stream“-Architektur – Video und Audio entstehen parallel und werden ausgerichtet. Ein Prompt, und die KI malt die Szene und legt den Sound darunter: Lippenbewegung und Stimme zusammen, Regen mit Regengeräusch, Holzboden mit Schritten.

Wichtig: drei Audio-Kategorien unterscheiden:

1. Dialog
Gesprochener Text von Figuren oder Voice-over – Tonfall, Akzent, Emotion steuerbar.

2. Soundeffekte (SFX)
Konkrete Ereignisse: Telefonklingeln, Wasser spritzt, Tür quietscht.

3. Umgebungsgeräusche (Ambient)
Hintergrund, der die Szene glaubwürdig macht: Verkehr, Wellen, Büro-Summen.

Audio-Upgrade in Veo 3.1 (Oktober 2025)

Am 14. Oktober 2025 brachte Google Veo 3.1 mit spürbar besserer Audioqualität.

Im Vergleichstest: Bei Veo 3 wirkte Dialog manchmal „schwebend“ – Stimme halb einen Schlag hinter dem Mund. Veo 3.1 behebt das weitgehend und unterstützt Mehrpersonen-Dialog – zwei Figuren im Wechsel, ohne Chaos.

Praktisch: Früher nur bei Text-to-Video mit Audio – jetzt auch Image-to-Video, Frame-Extend und ähnliche Modi.

Einschränkung: Das Audio ist eher ein First Draft. Community-Berichte: Natürlichkeit bis ca. 92 % von echter Aufnahme – für Profi-Projekte bleibt Nachbearbeitung sinnvoll. Bei $0,75 pro Sekunde ist „fertiges Endprodukt“ riskant.

Audio-Prompts: Nur explizit wirkt es

Warum Videos ohne Ton entstehen

Am Anfang hatten etwa 70 % meiner Clips keinen Sound – nicht wegen eines Defekts, sondern wegen vager Prompts.

Veo 3 ergänzt Audio nicht von selbst. Ohne Anweisung = stummes Video.

Beispiel: "A woman walking in the rain."
→ Bild ja, Regen und Schritte nein.

Besser: "A woman walking in the rain. Audio: rain pattering on pavement, footsteps splashing through puddles."

In Flow: Qualität auf Highest Quality. Der Vorschau-Modus erzeugt kein Audio – ein häufiger Anfängerfehler.

Drei Strategien für Audio-Typen

Dialog: festes Format

Formel: Charakter + Aktion + Dialog in Anführungszeichen

❌ Zu vage:
"A woman says hello."

✅ Klar:
"The woman smiles and says, 'Welcome to Veo 3.'"

Emotion: angrily, nervously, softly, excitedly – z. B.:
"The man leans forward and says angrily, 'Where is my coffee?'"

SFX: Aktion + Klangdetail

"a phone"
"the sound of a phone ringing", "water splashing in the background", "soft house sounds, the creak of a closet door, and a ticking clock"

Tipp: SFX an Bewegung binden – as, when:
"As the door creaks open, a gust of wind rushes in."

Ambient: Szene + Schichten

"city sounds"
"the sounds of city traffic and distant sirens", "waves crashing on the shore", "the quiet hum of an office"

Räumliche Audio-Beschreibung

Das Ohr trennt nah (scharf) und fern (gedämpft) – Veo 3 auch, wenn Sie es sagen:

  • in the distance
  • cuts through
  • somewhere above
  • faintly
  • echoing

Beispiel (gut getestet):

Rain falls steadily onto wet pavement, pattering softly across rooftops and metal bins.
A single, low thunderclap rolls across the sky, echoing faintly between tall buildings.
A car passes faintly in the distance. A dog barks once.
A soft, tense melody plays from an old radio somewhere above.

Ebenen: Nah (Regen auf Pflaster), Mitte (Donner), Fern (Auto, Hund), Atmosphäre (Radio oben).

Dialog in der Praxis

Einzelsprecher

Regel 1: Kurz – ein Satz, unter 8 Sekunden. Lange Monologe → fehlende Zeilen oder schlechter Lippensync. Aufteilen oder ein Satz.

Regel 2: Emotion + Bewegung + Sprache zusammen.

"He says, 'Did you hear that?'"

"He bursts into wild laughter, head thrown back. Mid-laugh, he stops, eyes widening in terror, then whispers softly: 'Did you hear that?'"

Regel 3: Gleiche Charakterbeschreibung in allen Clips einer Serie – z. B. immer "a woman in a red coat with short black hair", sonst wechseln Figur und Stimme.

Mehrere Sprecher

Direktes Skript oft katastrophal:

Man: "What are you doing?"
Woman: "None of your business."

→ Nur eine Stimme oder Dialog passt nicht zum Bild.

Besser: Szene beschreiben, kein Drehbuch.

"Inside a cluttered garage, two teenage friends argue over a broken time machine. One leans over the table, frustrated and loud. The other avoids eye contact, mumbling and fiddling with wires. Rain hits the roof, and the lights flicker."

Die KI verteilt Sprechanteile selbst – Erfolgsquote bleibt unter Einzeldialog. Für komplexe Gespräche: pro Clip eine sprechende Person, später schneiden.

Lippensync optimieren

  1. Ein Sprecher pro Clip
  2. Reihenfolge explizit: "The woman speaks first, then pauses. The man nods and replies."
  3. No subtitles. – sonst verdecken Untertitel den Mund.

Chinesisch vs. Englisch

Chinesische Dialog-Prompts: in Tests oft unter 30 % Erfolg – fehlende Sätze, falscher Sprecher, robotische Betonung.

Englisch: oft über 70 %.

Workaround: Dialog auf Englisch, Szene auf Deutsch oder Chinesisch – z. B. Szene beschreiben, Bestellung: "One cappuccino, please."

SFX und Musik: Immersion

Drei Ebenen

Nicht zu viele Geräusche – sonst Matsch.

Vordergrund: Tür, Glasbruch, Schritte – laut und klar.

Mittelgrund: Kaffeemaschine, leises Gemurmel – unterstützend.

Hintergrund: Jazz, ferner Verkehr – Stimmung.

Beispiel Café:

Audio: espresso machine hissing (foreground), soft jazz music (background),
customers chatting quietly (midground). The barista says: "One cappuccino coming right up!"

Klammern für Ebenen helfen – sonst übertönt Musik den Dialog.

Musik und Stimmung

Typen: jazz, classical, electronic, ambient, upbeat.

Stimmung: tense, upbeat, melancholic, mysterious.

Beispiele:

  • "A soft, tense melody plays"
  • "Upbeat festival music with steady drums"

Tempo: slow tempo (ruhig, traurig), fast tempo (Action, Verfolgung).

Konflikte vermeiden

Fünf Sekunden, sechs Audio-Elemente → unverständlich.

Max. 3–4 Ebenen, Priorität mit Wörtern:

  • loud / dominating – Vordergrund
  • soft – Musik
  • faint – Ferne

Beispiel:
"Loud thunder crashes (dominating). Rain patters softly on the roof (background). A car engine starts faintly in the distance."

Fehlersuche: 5 typische Audio-Probleme

Problem 1: Kein Ton

Ca. 85 % der „stummen“ Clips: drei Ursachen.

1) Kein Audio im Prompt
Prüfen: Audio:, says, Dialog in "..."?
Fix: "Audio includes...", "The man says, 'Hello.'", oder "Please generate this with clear speech."

2) Falsches Qualitätsprofil
Preview ohne Audio → Highest Quality in Flow-Einstellungen.

3) Audio am Ende eines langen Prompts
Audio-Anweisungen in die erste Hälfte setzen.

Problem 2: Lippensync passt nicht

Besonders bei Mehrpersonen.

  1. Clips teilen – ein Sprecher pro 8 s
  2. Dialog unter 5 s halten
  3. Reihenfolge: "The woman speaks first, pauses, then the man responds."

Einzeldialog ~80 %, Mehrpersonen ~40 %.

Problem 3: Unnatürlicher Klang

Zu vage: "A man speaks" → generischer Durchschnittston.

Ergänzen:

  • clear, raspy, sharp, deep
  • indoor reverb, outdoor open space, echoing space
  • British accent, slow deliberate pace (Englisch)

Beispiel:
"A man with a deep, raspy voice speaks slowly in an indoor space: 'Welcome home.'"

Problem 4: SFX passt nicht zum Bild

Lösung: Bild und Ton in einem Satz, mit as / when / while / making:

"A door opens. There is a creaking sound."
"As the door creaks open, a gust of wind rushes in."
"She walks across the wooden floor, her heels clicking sharply with each step."

Problem 5: Musik überdeckt Dialog

"Background music plays. The woman says, 'Hello.'"
"Soft background music plays quietly. The woman's voice cuts through clearly: 'Hello.'"

Keywords: soft background music, loud foreground dialogue, voice cuts through, music fades into background.

Wenn Dialog zählt: Musik weglassen.

Fortgeschritten

Prompt-Generatoren

  1. prompt-helper.com/veo-3-prompt-generator – Szenenbeschreibung → Prompt inkl. Audio
  2. Google Veo 3.1 Prompt Generator in Flow

Für komplexe Szenen: Generator als Basis, dann manuell feintunen.

Kosten

$0,75/Sekunde → 8 s ≈ $6, 60 s ≈ $45. Mehrere Fehlversuche summieren sich.

  1. Draft für Bild ohne Audio, dann Highest Quality
  2. 5–8 s testen, dann verlängern
  3. Extend in Veo 3.1 – günstiger als Neugenerierung, Audio kann mitlaufen

Flow-Nachbearbeitung

  • Lautstärke-Balance für zu laute Musik
  • Einzeldialog-Clips zu Gespräch schneiden
  • Bild behalten, Tonspur tauschen (Notlösung)

Extend: 8 s mit Audio auf 15 s verlängern – oft stabiler als 15 s neu.

Für Profi-Audio: Export nach Premiere oder Final Cut.

Fazit

Drei Kernpunkte:

Audio explizit angeben – Veo 3 ergänzt nichts von selbst.

Ebenen trennen – Dialog, SFX, Musik mit klarer Priorität.

Kurz und ein Sprecher – Dialog unter 8 s, ein Sprecher pro Clip wenn möglich.

Die Lernkurve kostet Testclips – danach sparen Sie massiv Zeit (klassisch ~4 h Vertonung → Minuten).

Chinesisch und Mehrpersonen-Sync verbessern sich laut Google weiter.

Nächste Schritte:

  1. Veo 3, Highest Quality
  2. Eine Vorlage aus diesem Artikel anpassen
  3. Erstes Video mit Audio generieren

Bei Problemen: Abschnitt „Fehlersuche“ oben. Audio ist Handwerk, kein Zufall – ein paar Versuche reichen meist.

FAQ

Warum hat mein Veo-3-Video keinen Ton?
Drei häufige Ursachen:

1) Audio nicht im Prompt genannt:
• Schlüsselwörter wie Audio:, says, Dialog in Anführungszeichen

2) Falsches Qualitätsprofil:
• Highest Quality wählen
• Vorschau-Modus erzeugt kein Audio

3) Audio-Anweisung geht unter:
• Audio-Teil in die erste Hälfte des Prompts setzen
Wie lasse ich eine Figur sprechen?
Format: Charakterbeschreibung + Aktion + Dialog in Anführungszeichen

Beispiel: ‚The woman smiles and says, "Welcome to Veo 3."‘

Hinweise:
• Kurze Dialoge, innerhalb von 8 Sekunden
• Stimmung mit Modifikatoren (angrily, softly, excitedly)
Dialog und Lippenbewegung passen nicht zusammen – was tun?
Drei Ansätze:

1) Clips teilen – pro 8-Sekunden-Segment nur eine sprechende Person

2) Dialog kürzen – ein Satz unter 5 Sekunden

3) Klare Abfolge beschreiben (wer spricht wann)

Erfolgsquoten:
• Einzeldialog Lippensync ca. 80 %
• Mehrpersonen-Dialog ca. 40 %
Wie füge ich Soundeffekte und Hintergrundmusik hinzu?
Markierung:
• SFX für Soundeffekte
• Ambient für Umgebungsgeräusche

Drei Ebenen:
• Vordergrund (Kern-SFX der Handlung)
• Mittelgrund (unterstützende Umgebung)
• Hintergrund (Stimmungsmusik)

Tipps:
• Ebenen in Klammern
• Lautstärke mit loud, soft, faint
• Maximal 3–4 Audio-Ebenen pro Clip
Warum funktioniert Chinesisch schlechter als Englisch?
Chinesische Dialoge: Erfolgsquote oft unter 30 % – fehlende Zeilen, falsche Sprecher, unnatürliche Betonung.

Englische Prompts: oft über 70 %.

Workaround: Kern-Dialog auf Englisch, Szenenbeschreibung auf Chinesisch oder Deutsch

Beispiel: ‚Eine Frau in roter Jacke betritt ein Café und sagt lächelnd: "One cappuccino, please."‘
Wie halte ich die Audio-Kosten niedrig?
Drei Spartipps:

1) Zuerst Draft für Bildkomposition, dann Highest Quality mit Audio

2) Kurze Testclips 5–8 Sekunden

3) Extend zum Verlängern – günstiger als Neugenerierung

Preis: $0,75/Sekunde, 8 Sekunden ≈ $6.

5 Min. Lesezeit · Veröffentlicht am: 7. Dez. 2025 · Aktualisiert am: 8. Juni 2026

Ähnliche Beiträge

Kommentare

Melde dich mit GitHub an, um einen Kommentar zu hinterlassen