Veo 3 Audiogenerierung komplett: KI-Videos mit Dialog, SFX und Musik (Prompt-Vorlagen)
Veo 3 fügt Videos nicht automatisch Ton hinzu. Selbst wenn im Prompt steht: "A woman says: 'Hello'" – ohne richtiges Qualitätsprofil oder klare Audio-Beschreibung landen Sie bei einem stummen Clip.
Bei der I/O 2025 stellte Google Veo 3 mit nativem Audio vor: Dialog, Soundeffekte und Musik können mit dem Bild mitgeneriert werden. Die Funktion ist nicht standardmäßig aktiv – Sie müssen im Prompt festlegen, wer was sagt, welche Geräusche die Szene hat und bei Mehrpersonen-Dialogen, wer wann spricht. Lippensync bei Einzeldialog liegt bei etwa 80 %, bei Mehrpersonen unter 40 %, bei Chinesisch oft nur um 30 %.
Dieser Artikel erklärt die Logik der Veo-3-Audiogenerierung, liefert Prompt-Vorlagen für Dialog, SFX und Musik sowie Checklisten für fünf häufige Probleme.
Veo-3-Audio: Schluss mit stummen KI-Videos
Was native Audiogenerierung bedeutet
Klassischer Ablauf bei KI-Video: zuerst Bild, dann Sprecher, Aufnahme, SFX, Mix – laut Schätzungen von Promise Studios im Schnitt etwa vier Stunden.
Veo 3 drückt das auf etwa drei Minuten.
Technisch nutzt es eine „Dual-Stream“-Architektur – Video und Audio entstehen parallel und werden ausgerichtet. Ein Prompt, und die KI malt die Szene und legt den Sound darunter: Lippenbewegung und Stimme zusammen, Regen mit Regengeräusch, Holzboden mit Schritten.
Wichtig: drei Audio-Kategorien unterscheiden:
1. Dialog
Gesprochener Text von Figuren oder Voice-over – Tonfall, Akzent, Emotion steuerbar.
2. Soundeffekte (SFX)
Konkrete Ereignisse: Telefonklingeln, Wasser spritzt, Tür quietscht.
3. Umgebungsgeräusche (Ambient)
Hintergrund, der die Szene glaubwürdig macht: Verkehr, Wellen, Büro-Summen.
Audio-Upgrade in Veo 3.1 (Oktober 2025)
Am 14. Oktober 2025 brachte Google Veo 3.1 mit spürbar besserer Audioqualität.
Im Vergleichstest: Bei Veo 3 wirkte Dialog manchmal „schwebend“ – Stimme halb einen Schlag hinter dem Mund. Veo 3.1 behebt das weitgehend und unterstützt Mehrpersonen-Dialog – zwei Figuren im Wechsel, ohne Chaos.
Praktisch: Früher nur bei Text-to-Video mit Audio – jetzt auch Image-to-Video, Frame-Extend und ähnliche Modi.
Einschränkung: Das Audio ist eher ein First Draft. Community-Berichte: Natürlichkeit bis ca. 92 % von echter Aufnahme – für Profi-Projekte bleibt Nachbearbeitung sinnvoll. Bei $0,75 pro Sekunde ist „fertiges Endprodukt“ riskant.
Audio-Prompts: Nur explizit wirkt es
Warum Videos ohne Ton entstehen
Am Anfang hatten etwa 70 % meiner Clips keinen Sound – nicht wegen eines Defekts, sondern wegen vager Prompts.
Veo 3 ergänzt Audio nicht von selbst. Ohne Anweisung = stummes Video.
Beispiel: "A woman walking in the rain."
→ Bild ja, Regen und Schritte nein.
Besser: "A woman walking in the rain. Audio: rain pattering on pavement, footsteps splashing through puddles."
In Flow: Qualität auf Highest Quality. Der Vorschau-Modus erzeugt kein Audio – ein häufiger Anfängerfehler.
Drei Strategien für Audio-Typen
Dialog: festes Format
Formel: Charakter + Aktion + Dialog in Anführungszeichen
❌ Zu vage:
"A woman says hello."
✅ Klar:
"The woman smiles and says, 'Welcome to Veo 3.'"
Emotion: angrily, nervously, softly, excitedly – z. B.:
"The man leans forward and says angrily, 'Where is my coffee?'"
SFX: Aktion + Klangdetail
❌ "a phone"
✅ "the sound of a phone ringing", "water splashing in the background", "soft house sounds, the creak of a closet door, and a ticking clock"
Tipp: SFX an Bewegung binden – as, when:
"As the door creaks open, a gust of wind rushes in."
Ambient: Szene + Schichten
❌ "city sounds"
✅ "the sounds of city traffic and distant sirens", "waves crashing on the shore", "the quiet hum of an office"
Räumliche Audio-Beschreibung
Das Ohr trennt nah (scharf) und fern (gedämpft) – Veo 3 auch, wenn Sie es sagen:
- in the distance
- cuts through
- somewhere above
- faintly
- echoing
Beispiel (gut getestet):
Rain falls steadily onto wet pavement, pattering softly across rooftops and metal bins.
A single, low thunderclap rolls across the sky, echoing faintly between tall buildings.
A car passes faintly in the distance. A dog barks once.
A soft, tense melody plays from an old radio somewhere above.
Ebenen: Nah (Regen auf Pflaster), Mitte (Donner), Fern (Auto, Hund), Atmosphäre (Radio oben).
Dialog in der Praxis
Einzelsprecher
Regel 1: Kurz – ein Satz, unter 8 Sekunden. Lange Monologe → fehlende Zeilen oder schlechter Lippensync. Aufteilen oder ein Satz.
Regel 2: Emotion + Bewegung + Sprache zusammen.
❌ "He says, 'Did you hear that?'"
✅ "He bursts into wild laughter, head thrown back. Mid-laugh, he stops, eyes widening in terror, then whispers softly: 'Did you hear that?'"
Regel 3: Gleiche Charakterbeschreibung in allen Clips einer Serie – z. B. immer "a woman in a red coat with short black hair", sonst wechseln Figur und Stimme.
Mehrere Sprecher
Direktes Skript oft katastrophal:
Man: "What are you doing?"
Woman: "None of your business."
→ Nur eine Stimme oder Dialog passt nicht zum Bild.
Besser: Szene beschreiben, kein Drehbuch.
✅ "Inside a cluttered garage, two teenage friends argue over a broken time machine. One leans over the table, frustrated and loud. The other avoids eye contact, mumbling and fiddling with wires. Rain hits the roof, and the lights flicker."
Die KI verteilt Sprechanteile selbst – Erfolgsquote bleibt unter Einzeldialog. Für komplexe Gespräche: pro Clip eine sprechende Person, später schneiden.
Lippensync optimieren
- Ein Sprecher pro Clip
- Reihenfolge explizit:
"The woman speaks first, then pauses. The man nods and replies." No subtitles.– sonst verdecken Untertitel den Mund.
Chinesisch vs. Englisch
Chinesische Dialog-Prompts: in Tests oft unter 30 % Erfolg – fehlende Sätze, falscher Sprecher, robotische Betonung.
Englisch: oft über 70 %.
Workaround: Dialog auf Englisch, Szene auf Deutsch oder Chinesisch – z. B. Szene beschreiben, Bestellung: "One cappuccino, please."
SFX und Musik: Immersion
Drei Ebenen
Nicht zu viele Geräusche – sonst Matsch.
Vordergrund: Tür, Glasbruch, Schritte – laut und klar.
Mittelgrund: Kaffeemaschine, leises Gemurmel – unterstützend.
Hintergrund: Jazz, ferner Verkehr – Stimmung.
Beispiel Café:
Audio: espresso machine hissing (foreground), soft jazz music (background),
customers chatting quietly (midground). The barista says: "One cappuccino coming right up!"
Klammern für Ebenen helfen – sonst übertönt Musik den Dialog.
Musik und Stimmung
Typen: jazz, classical, electronic, ambient, upbeat.
Stimmung: tense, upbeat, melancholic, mysterious.
Beispiele:
"A soft, tense melody plays""Upbeat festival music with steady drums"
Tempo: slow tempo (ruhig, traurig), fast tempo (Action, Verfolgung).
Konflikte vermeiden
Fünf Sekunden, sechs Audio-Elemente → unverständlich.
Max. 3–4 Ebenen, Priorität mit Wörtern:
- loud / dominating – Vordergrund
- soft – Musik
- faint – Ferne
Beispiel:
"Loud thunder crashes (dominating). Rain patters softly on the roof (background). A car engine starts faintly in the distance."
Fehlersuche: 5 typische Audio-Probleme
Problem 1: Kein Ton
Ca. 85 % der „stummen“ Clips: drei Ursachen.
1) Kein Audio im Prompt
Prüfen: Audio:, says, Dialog in "..."?
Fix: "Audio includes...", "The man says, 'Hello.'", oder "Please generate this with clear speech."
2) Falsches Qualitätsprofil
Preview ohne Audio → Highest Quality in Flow-Einstellungen.
3) Audio am Ende eines langen Prompts
Audio-Anweisungen in die erste Hälfte setzen.
Problem 2: Lippensync passt nicht
Besonders bei Mehrpersonen.
- Clips teilen – ein Sprecher pro 8 s
- Dialog unter 5 s halten
- Reihenfolge:
"The woman speaks first, pauses, then the man responds."
Einzeldialog ~80 %, Mehrpersonen ~40 %.
Problem 3: Unnatürlicher Klang
Zu vage: "A man speaks" → generischer Durchschnittston.
Ergänzen:
- clear, raspy, sharp, deep
- indoor reverb, outdoor open space, echoing space
- British accent, slow deliberate pace (Englisch)
Beispiel:
"A man with a deep, raspy voice speaks slowly in an indoor space: 'Welcome home.'"
Problem 4: SFX passt nicht zum Bild
Lösung: Bild und Ton in einem Satz, mit as / when / while / making:
❌ "A door opens. There is a creaking sound."
✅ "As the door creaks open, a gust of wind rushes in."
✅ "She walks across the wooden floor, her heels clicking sharply with each step."
Problem 5: Musik überdeckt Dialog
❌ "Background music plays. The woman says, 'Hello.'"
✅ "Soft background music plays quietly. The woman's voice cuts through clearly: 'Hello.'"
Keywords: soft background music, loud foreground dialogue, voice cuts through, music fades into background.
Wenn Dialog zählt: Musik weglassen.
Fortgeschritten
Prompt-Generatoren
- prompt-helper.com/veo-3-prompt-generator – Szenenbeschreibung → Prompt inkl. Audio
- Google Veo 3.1 Prompt Generator in Flow
Für komplexe Szenen: Generator als Basis, dann manuell feintunen.
Kosten
$0,75/Sekunde → 8 s ≈ $6, 60 s ≈ $45. Mehrere Fehlversuche summieren sich.
- Draft für Bild ohne Audio, dann Highest Quality
- 5–8 s testen, dann verlängern
- Extend in Veo 3.1 – günstiger als Neugenerierung, Audio kann mitlaufen
Flow-Nachbearbeitung
- Lautstärke-Balance für zu laute Musik
- Einzeldialog-Clips zu Gespräch schneiden
- Bild behalten, Tonspur tauschen (Notlösung)
Extend: 8 s mit Audio auf 15 s verlängern – oft stabiler als 15 s neu.
Für Profi-Audio: Export nach Premiere oder Final Cut.
Fazit
Drei Kernpunkte:
Audio explizit angeben – Veo 3 ergänzt nichts von selbst.
Ebenen trennen – Dialog, SFX, Musik mit klarer Priorität.
Kurz und ein Sprecher – Dialog unter 8 s, ein Sprecher pro Clip wenn möglich.
Die Lernkurve kostet Testclips – danach sparen Sie massiv Zeit (klassisch ~4 h Vertonung → Minuten).
Chinesisch und Mehrpersonen-Sync verbessern sich laut Google weiter.
Nächste Schritte:
- Veo 3, Highest Quality
- Eine Vorlage aus diesem Artikel anpassen
- Erstes Video mit Audio generieren
Bei Problemen: Abschnitt „Fehlersuche“ oben. Audio ist Handwerk, kein Zufall – ein paar Versuche reichen meist.
FAQ
Warum hat mein Veo-3-Video keinen Ton?
1) Audio nicht im Prompt genannt:
• Schlüsselwörter wie Audio:, says, Dialog in Anführungszeichen
2) Falsches Qualitätsprofil:
• Highest Quality wählen
• Vorschau-Modus erzeugt kein Audio
3) Audio-Anweisung geht unter:
• Audio-Teil in die erste Hälfte des Prompts setzen
Wie lasse ich eine Figur sprechen?
Beispiel: ‚The woman smiles and says, "Welcome to Veo 3."‘
Hinweise:
• Kurze Dialoge, innerhalb von 8 Sekunden
• Stimmung mit Modifikatoren (angrily, softly, excitedly)
Dialog und Lippenbewegung passen nicht zusammen – was tun?
1) Clips teilen – pro 8-Sekunden-Segment nur eine sprechende Person
2) Dialog kürzen – ein Satz unter 5 Sekunden
3) Klare Abfolge beschreiben (wer spricht wann)
Erfolgsquoten:
• Einzeldialog Lippensync ca. 80 %
• Mehrpersonen-Dialog ca. 40 %
Wie füge ich Soundeffekte und Hintergrundmusik hinzu?
• SFX für Soundeffekte
• Ambient für Umgebungsgeräusche
Drei Ebenen:
• Vordergrund (Kern-SFX der Handlung)
• Mittelgrund (unterstützende Umgebung)
• Hintergrund (Stimmungsmusik)
Tipps:
• Ebenen in Klammern
• Lautstärke mit loud, soft, faint
• Maximal 3–4 Audio-Ebenen pro Clip
Warum funktioniert Chinesisch schlechter als Englisch?
Englische Prompts: oft über 70 %.
Workaround: Kern-Dialog auf Englisch, Szenenbeschreibung auf Chinesisch oder Deutsch
Beispiel: ‚Eine Frau in roter Jacke betritt ein Café und sagt lächelnd: "One cappuccino, please."‘
Wie halte ich die Audio-Kosten niedrig?
1) Zuerst Draft für Bildkomposition, dann Highest Quality mit Audio
2) Kurze Testclips 5–8 Sekunden
3) Extend zum Verlängern – günstiger als Neugenerierung
Preis: $0,75/Sekunde, 8 Sekunden ≈ $6.
5 Min. Lesezeit · Veröffentlicht am: 7. Dez. 2025 · Aktualisiert am: 8. Juni 2026
Veo3 Guide
Wenn du über die Suche hier gelandet bist, kommst du am schnellsten weiter, indem du zum vorherigen oder nächsten Beitrag dieser Serie springst.
Vorheriger
Veo 3 Kamerasteuerung: 7 Shot-Typen für sofort mehr Filmlook in KI-Videos
Dolly Shot, Tracking Shot und fünf weitere Kamerabewegungen als Prompts für Veo 3 – so wirken KI-Videos sofort filmischer. Mit kopierbaren Vorlagen und typischen Fehlern für Einsteiger.
Teil 3 von 7
Nächster
Veo 3 Charakterkonsistenz: Mit Scenebuilder kohärente Mehrfach-Szenen-Videos erstellen
Lernen Sie, wie Sie mit Scenebuilder in Veo 3 das Problem inkonsistenter Charaktere in Mehrfach-Szenen-Videos lösen – inklusive Schritt-für-Schritt-Anleitung, Prompt-Vorlagen und Praxistipps für stabile KI-Videofiguren.
Teil 5 von 7
Ähnliche Beiträge
Veo-3-Prompts schreiben: 5-Schritte-Formel + 10 Vorlagen für filmreife KI-Videos
Veo-3-Prompts schreiben: 5-Schritte-Formel + 10 Vorlagen für filmreife KI-Videos
Wie viel kostet Veo 3 pro Monat? Pro vs. Ultra im Vergleich und Spartipps
Wie viel kostet Veo 3 pro Monat? Pro vs. Ultra im Vergleich und Spartipps
Veo 3 Image-to-Video in der Praxis: Präzise Videosteuerung mit Reference Image
Kommentare
Melde dich mit GitHub an, um einen Kommentar zu hinterlassen