言語を切り替える
テーマを切り替える

Veo 3 音声生成完全ガイド:AI 動画にセリフと BGM を自動付けする方法(プロンプトテンプレート付き)

Veo 3 は、動画に音声を自動で付けてくれません。プロンプトに "A woman says: 'Hello'" と書いても、品質モードを選び間違えたり、音声の記述が曖昧だと、生成結果は無音のままです。

Google が 2025 年 I/O で Veo 3 を発表したとき、大きな売りのひとつがネイティブ音声対応でした。会話、効果音、BGM を映像と同期して生成できます。ただしデフォルトでは有効にならず、プロンプトで「誰が何を話すか」「シーンにどんな音があるか」「複数人なら誰が先に話すか」をはっきり書く必要があります。一人の会話ならリップシンク成功率は約 80%、複数人では 40% 以下、日本語や中国語のセリフは 30% 前後にとどまることも多いです。

本記事では、Veo 3 の音声生成の仕組みを整理し、会話・効果音・BGM 向けのプロンプトテンプレートと、よくある 5 つの問題の切り分け方を紹介します。

Veo 3 音声生成:無音時代からの一歩

ネイティブ音声生成とは

従来の AI 動画生成は、まず映像を作り、そのあと声優探し、録音、効果音制作、ミキシング——Promise Studios チームの試算では、平均 4 時間かかります。

Veo 3 は、この流れを 3 分に圧縮します。

仕組みは dual-stream アーキテクチャ(映像と音声を同時生成し、自動で同期する方式)です。プロンプトを入れると、AI は描きながら音も付けます。キャラクターが話すときは口の動きと声が揃い、雨なら雨音、木の床なら足音も画面に合います。

ただし、Veo 3 の音声は 3 種類に分かれます。使い分けを押さえておきましょう。

1. 会話(Dialogue)
キャラクターやナレーションのセリフ。トーン、アクセント、感情も指定できます。

2. 効果音(Sound Effects)
シーン内の具体的な音。電話のベル、水しぶき、ドアのきしみなど。

3. 環境音(Ambient Noise)
シーンをリアルにする背景音。都市の交通音、波の音、オフィスの空調音など。

Veo 3.1 の音声アップグレード(2025 年 10 月)

2025 年 10 月 14 日、Google は Veo 3.1 を公開し、音声品質が大きく上がりました。

自分で比較したところ、Veo 3 では会話がたまに「浮く」——音と口の動きが半拍ずれる——ことがありました。Veo 3.1 ではほぼ解消され、複数人の会話にも対応。2 人が交互に話しても乱れにくくなっています。

実用的な変更もあります。以前はテキストから動画のときだけ音声を付けられましたが、画像から動画(画像アップロード)やフレーム拡張(動画の延長)でも音声が使えます。

とはいえ、Veo 3.1 の音声は first draft(初稿)に近いものです。コミュニティの体感では自然さは実録の 92% 程度。プロ用途なら後処理は避けられません。1 秒 $0.75 かかる以上、そのまま完成品扱いは少し無理があります。

音声プロンプトの原則:明示しないと鳴らない

無音動画になる理由

Veo 3 を使い始めた頃、生成動画の約 70% が無音でした。AI が壊れていたのではなく、プロンプトが曖昧だっただけです。

Veo 3 は能動的に音声を足しません。書かなければ、無音動画が欲しいと解釈します。

たとえば "A woman walking in the rain." と書くと、雨の中を歩く女性の映像だけ返ってきます。雨音も足音もありません。

"A woman walking in the rain. Audio: rain pattering on pavement, footsteps splashing through puddles." のように書けば、雨音と足音が必要だと理解します。

もう一つの落とし穴は Flow の品質モードです。Highest Quality を選ばないと、プレビューモードでは音声は生成されません。私も最初、十数回試して音が出ず、設定を見落としていました。

3 種類の音声プロンプト戦略

会話(Dialogue):形式を固定すると安定する

公式はシンプルです。キャラクター描写 + 動作 + 引用符付きセリフ

❌ 悪い例:
"A woman says hello."(何をどう言うか不明)

✅ 良い例:
"The woman smiles and says, 'Welcome to Veo 3.'"

感情を足すなら副詞を追加します。

  • angrily(怒って)
  • nervously(緊張して)
  • softly(優しく)
  • excitedly(興奮して)

例:
"The man leans forward and says angrily, 'Where is my coffee?'"

効果音(Sound Effects):動作 + 音の具体描写

❌ 曖昧な例:
"a phone"

✅ 具体的な例:
"the sound of a phone ringing"
"water splashing in the background"
"soft house sounds, the creak of a closet door, and a ticking clock"

aswhen で画面の動きと音を結びつけるのも有効です。
"As the door creaks open, a gust of wind rushes in."

環境音(Ambient Noise):シーン + 背景のレイヤー

❌ 薄い例:
"city sounds"

✅ レイヤーがある例:
"the sounds of city traffic and distant sirens"
"waves crashing on the shore"
"the quiet hum of an office"

空間オーディオの書き方

音には距離感があります。近い音ははっきり、遠い音はぼやけて聞こえます。Veo 3 も理解できますが、指示が必要です。

  • in the distance(遠くで)
  • cuts through(前面に響く主音)
  • somewhere above(上のどこかで)
  • faintly(かすかに)
  • echoing(反響する)

実測で効果が良かった例:

Rain falls steadily onto wet pavement, pattering softly across rooftops and metal bins.
A single, low thunderclap rolls across the sky, echoing faintly between tall buildings.
A car passes faintly in the distance. A dog barks once.
A soft, tense melody plays from an old radio somewhere above.
  • 近景の主音:地面に落ちる雨
  • 中景:遠くで反響する雷
  • 遠景:通り過ぎる車、犬の一鳴き
  • 雰囲気:上のどこかのラジオ

このように層を分けて書くと、Veo 3 はかなり正確に再現します。

会話生成の実践:キャラクターに喋らせる

一人の会話のコツ

会話は Veo 3 音声のなかでいちばん難しい部分です。技術よりルールが多いのが理由です。

第一の鉄則:セリフは短く、1 文、8 秒以内。

長いセリフを試すと、欠落したり口の動きが乱れたりします。複数クリップに分けるか、1 文で終わらせましょう。

第二:感情 + 動作 + 言葉をセットで書く。

❌ 平坦な例:
"He says, 'Did you hear that?'"

✅ 緊張感のある例:
"He bursts into wild laughter, head thrown back. Mid-laugh, he stops, eyes widening in terror, then whispers softly: 'Did you hear that?'"

後者は大笑い→停止→恐怖→囁きという変化まで書いています。Veo 3 はこの転換をかなり自然に再現します。

第三:キャラクター描写は毎回同じに。

複数クリップを作るなら、"a woman in a red coat with short black hair" のような描写を毎回一致させてください。ブレると見た目も声も変わります。

複数人の会話

二人が同時に話すのは、Veo 3 音声の悪夢シーンです。

以前、こう書いて試しました:

Man: "What are you doing?"
Woman: "None of your business."

惨憺たる結果。一人しか声が出ない、会話が画面と合わない——どちらも起きました。

正解は、台本ではなくシーンの流れを書くことです。

✅ 有効な例:
"Inside a cluttered garage, two teenage friends argue over a broken time machine. One leans over the table, frustrated and loud. The other avoids eye contact, mumbling and fiddling with wires. Rain hits the roof, and the lights flicker."

「A がこれ、B がそれ」と指示するのではなく、「二人が口論している」と伝え、誰がいつ話すかは Veo 3 に任せます。

それでも複数人の成功率は一人より低いです。複雑な会話なら、1 クリップ 1 人にして後でつなぐのが現実的です。

リップシンクを整える

1. 1 クリップ 1 話者
繰り返しですが、同時に複数人が話すと同期が崩れやすいです。

2. 交代を明示する
"The woman speaks first, then pauses. The man nods and replies."

3. "No subtitles." を足す
Veo 3 は字幕を自動生成し、口元を隠すことがあります。No subtitles. で無効化できます。

英語と日本語・中国語の違い

率直に言うと、英語以外のセリフは英語よりかなり弱いです。

20 件以上の日本語・中国語セリフを試したところ、成功率は 30% 未満。よくある問題は次のとおりです。

  • セリフ欠落
  • 話者の取り違え
  • 不自然な発音

同じシーンなら英語プロンプトで 70% 以上も現実的です。

回避策:重要なセリフは英語、シーン描写は日本語

例:
"赤いコートの女性がカフェに入り、ウェイターに微笑んで言う:'One cappuccino, please.'"

理解しやすく、会話品質も落ちにくい組み合わせです。

効果音と BGM:没入感を作る

効果音の 3 層設計

効果音は多いほど良いわけではありません。詰め込みすぎるとごちゃごちゃになります。

前景(Foreground) — 主役の動作音
ドア、割れるカップ、足音など。はっきり、大きく。

中景(Midground) — 補助的な環境音
主音を邪魔せずリアリティを足す。コーヒーマシン、客のささやき声など。

背景(Background) — 雰囲気音楽
情緒を支える下地。静かなジャズ、遠い交通音など。

カフェシーンの例:

Audio: espresso machine hissing (foreground), soft jazz music (background),
customers chatting quietly (midground). The barista says: "One cappuccino coming right up!"

括弧でレイヤーを書くと、BGM が会話をかき消す事故を減らせます。

BGM の感情制御

ジャンルを明示します。

  • jazz
  • classical
  • electronic
  • ambient
  • upbeat

感情修飾:

  • tense
  • upbeat
  • melancholic
  • mysterious

例:

  • "A soft, tense melody plays"
  • "Upbeat festival music with steady drums"

tempo も指定できます。

  • slow tempo → 悲しみ、回想
  • fast tempo → アクション、追跡

音声の衝突を避ける

5 秒のクリップに雨、雷、足音、交通、会話、BGM の 6 要素を入れたことがあります。結果は粥状態で、何も聞き取れませんでした。

教訓:1 クリップ 3〜4 層まで。主従をはっきり。

  • loud → 前景の主音
  • soft → BGM
  • faint → 遠景
  • dominating → 支配的な主音

例:
"Loud thunder crashes (dominating). Rain patters softly on the roof (background). A car engine starts faintly in the distance."

トラブルシューティング:5 つのよくある問題

問題 1:動画に音がない

無音動画の約 85% は次の 3 原因です。

原因 1:音声を明示していない
Audio:says、引用符付きセリフはありますか?

  • "Audio includes..."
  • "The man says, 'Hello.'"
  • 最終手段:"Please generate this with clear speech."

原因 2:品質モードの間違い
Flow の Preview は音声なし。Highest Quality を選びます。

原因 3:音声指示が後ろに埋もれている
300 字の画面描写の末尾に "with dialogue" だけでは無視されがちです。音声指示は前半へ。

問題 2:セリフと口の動きがずれる

複数人ほど起きやすい問題です。AI が同時に複数話者を処理すると乱れます。

  1. 8 秒ごとに 1 人だけ話させ、後でつなぐ
  2. 1 文を 5 秒以内に
  3. "The woman speaks first, pauses, then the man responds."

一人なら約 80%、複数人は約 40%。リップシンク重視なら無理は禁物です。

問題 3:音が不自然

"A man speaks" だけでは声の特徴が不明。平均的な男声しか出ません。

  1. 声の特徴:clear、raspy、sharp、deep
  2. 残響:indoor reverb、outdoor, open space、echoing space
  3. アクセントと話速(英語):British accent、slow, deliberate pace

例:
"A man with a deep, raspy voice speaks slowly in an indoor space: 'Welcome home.'"

問題 4:効果音と画面が合わない

木の床なのに石の足音、ドア音が 1 秒早い——視覚と音が別々に書かれているのが原因です。

❌ 分離:
"A door opens. There is a creaking sound."

✅ 結合:
"As the door creaks open, a gust of wind rushes in."

aswhenwhilemaking で因果をつなぎます。

例:
"She walks across the wooden floor, her heels clicking sharply with each step."

問題 5:BGM が会話をかき消す

音量修飾で主役を指定します。

❌ レイヤーなし:
"Background music plays. The woman says, 'Hello.'"

✅ レイヤーあり:
"Soft background music plays quietly. The woman's voice cuts through clearly: 'Hello.'"

会話が主なら、BGM を入れないのも手です。

上級テクニック:成功率を上げる

プロンプトジェネレーターを使う

手書きは漏れやすいです。生成器で下書きすると楽です。

  1. prompt-helper.com/veo-3-prompt-generator
    ログイン不要。シーンを入れると音声指示付きプロンプトを生成。

  2. Google 公式 Veo 3.1 プロンプトジェネレーター
    Flow エディタ内。シーンに合わせて音声要素を提案。

複雑なシーンは生成器で骨組みを作り、細部を手で直すのが効率的です。

コスト管理

Veo 3 は $0.75/秒。8 秒で $6、1 分で $45。試行錯誤がそのままコストになります。

1. Draft で構図を先に確認
音声なしですが速く安い。問題なければ Highest Quality で音声版。

2. 5〜8 秒から試す
60 秒をいきなり作らない。

3. Extend を使う
既存動画の延長は再生成より安く、音声も継続できます。

Flow での後処理

  • 音量バランス:BGM が大きければ Flow の調整ツールで下げる
  • クリップ結合:1 人ずつ生成してつなぐ方が複数人一発より確実
  • 音声置換:映像は残し音だけ差し替え(ネイティブ音声の思想には反しますが救済策)

8 秒の音声付き動画を Extend で 15 秒に延ばすと、一発 15 秒生成より成功率が高いです。

ただ Flow の音声編集はまだ基礎レベル。本格的な仕上げは Premiere や Final Cut 向きです。

まとめ

要点は 3 つです。

音声を明示する — Veo 3 は推測しません。欲しい音を書いてください。

レイヤー設計 — 会話、効果音、BGM の主従を分け、詰め込まない。

短文原則 — 8 秒以内、1 クリップ 1 話者。

コツを掴むまで試行は必要です。私も約 20 本のテスト動画を使ってようやく感覚がつかめました。一度わかると、従来 4 時間の吹き替えが 3 分で済み、制作速度は何倍にも上がります。

Veo 3.1 の日本語・中国語サポートや複数人同期はまだ改善余地があります。それでも動画生成の大きな一歩です。Google は Veo 3 を急速に更新しており、来年にはさらに良くなる見込みです。

今すぐ試すなら:

  1. Veo 3 を開き、Highest Quality を選ぶ
  2. 本記事のテンプレートを自分のシーンに合わせて書き換える
  3. 最初の音声付き AI 動画を生成する

詰まったら第 5 章のチェックリストに戻ってください。音声生成は技術ですが、黒魔術ではありません。数回試せば、感覚がつかめます。

FAQ

Veo 3 で生成した動画に音が出ないのはなぜ?
主な原因は 3 つです。

1) プロンプトで音声を明示していない:
• Audio:、says、引用符付きのセリフなどが必要

2) 品質モードの選択ミス:
• Highest Quality を選ぶ
• プレビューモードでは音声は生成されない

3) 音声指示が埋もれている:
• 音声指示はプロンプト前半に置く
キャラクターに話させるには?
形式:キャラクター描写 + 動作 + 引用符付きセリフ

例:'The woman smiles and says, "Welcome to Veo 3."'

注意点:
• セリフは短く、8 秒以内
• angrily、softly、excitedly などで感情を指定できる
セリフと口の動きがずれるときは?
3 つの対処法:

1) クリップを分割し、8 秒ごとに一人だけ話させる

2) セリフを短くし、1 文を 5 秒以内に収める

3) 明確な「交代」記述を入れる

成功率の目安:
• 一人の会話:リップシンク約 80%
• 複数人:約 40%
効果音と BGM を追加するには?
マーク方法:
• 効果音は SFX
• 環境音は Ambient

3 層で設計:
• 前景(主役の動作音)
• 中景(補助的な環境音)
• 背景(雰囲気音楽)

コツ:
• 括弧でレイヤーを明示
• loud、soft、faint で音量の主従を指定
• 1 クリップあたり 3〜4 層まで
日本語や中国語のセリフは英語より弱いのはなぜ?
英語以外のセリフは成功率 30% 前後にとどまりがちです。よくある問題:
• セリフ欠落
• 話者の取り違え
• 不自然な発音

英語プロンプトなら 70% 以上も現実的。

回避策:重要なセリフは英語、シーン描写は日本語

例:'赤いコートの女性がカフェに入り、ウェイターに微笑んで言う:"One cappuccino, please."'
音声生成のコストを抑えるには?
3 つの節約術:

1) Draft モードで構図を先に確認し、問題なければ Highest Quality で音声版を生成

2) まず 5〜8 秒のテストクリップで試す

3) Extend で既存動画を延長すると、再生成より安い

Veo 3 は $0.75/秒。8 秒なら $6。

6分で読めます · 公開日: 2025年12月7日 · 更新日: 2026年6月8日

関連記事

コメント

GitHubアカウントでログインしてコメントできます