言語を切り替える
テーマを切り替える

Veo 3音声生成完全ガイド:AI動画に自動でセリフとBGMをつける方法(プロンプトテンプレート付き)

午前1時、Veo 3で生成したばかりの動画を見つめていました。キャラクターの口は動いているのに、部屋の中は——墓場のように静まり返っていました。

正直、その時は崩れ落ちそうになりました。プロンプトには間違いなく “A woman says: ‘Hello’” と書いたのに、結果は美しい無声映画でした。さらに3回試しましたが、ある時は生成された会話が口の動きと全く合っておらず、まるで90年代の吹き替え映画を見ているようでした。

後に知ったのですが、Veo 3の音声生成機能を初めて使う人の90%がこの落とし穴にはまります。

Googleは2025年のI/OカンファレンスでVeo 3を発表した際、「動画生成の無音時代を打破する」と謳いました。AIが会話、効果音、BGMをネイティブに生成し、音と映像が完全に同期すると。素晴らしく聞こえますが、実際に使ってみるとわかります。Veo 3は音声を勝手に補完してくれません。「どんな音が欲しいか」「誰が話すのか」「どう話すのか」を明確に指示する必要があるのです。

この記事では、Veo 3の音声生成の完全なロジックを分解します。会話、効果音からBGMまで、そのまま使えるプロンプトテンプレートと、5つの最も一般的な問題のチェックリストを提供します。これを読めば、もう無音動画を生成することはありません。

Veo 3音声生成革命:無音時代への別れ

ネイティブ音声生成とは

従来のAI動画生成はこうでした。まず映像を生成し、その後自分で声優を探し、録音し、効果音を作り、ミキシングする——Promise Studiosチームの試算によると、全工程で平均4時間かかります。

Veo 3はこのプロセスを3分に短縮しました。

Veo 3は「デュアルストリームアーキテクチャ」(難しそうですが、要は映像と音声を同時に生成し、自動で同期させるという意味です)を採用しています。プロンプトを入力すると、AIは絵を描きながら音声をつけます。キャラクターが話すときの口の動きと声は自然に同期し、環境音も画面と一致します——雨が降れば雨音がし、木の床を歩けば足音がします。

ただし、重要なポイントがあります。Veo 3の音声能力は3つのカテゴリに分かれており、これらを使い分ける必要があります:

1. 会話 (Dialogue)
キャラクターやナレーターの話す言葉。トーン、アクセント、感情を制御できます。

2. 効果音 (Sound Effects)
シーン内で発生する具体的な音:電話のベル、水しぶきの音、ドアがきしむ音など。

3. 環境音 (Ambient Noise)
シーンをリアルにする背景音:都市の交通音、波が岸を打つ音、オフィスの空調音など。

Veo 3.1の音声アップグレード(2025年10月)

2025年10月14日、GoogleはVeo 3.1をリリースし、音声品質が大幅に向上しました。

私自身で比較テストを行いましたが、Veo 3で生成された会話は時々「浮く」(音と口の動きが半拍ずれる)ことがありました。Veo 3.1ではこの問題がほぼ解決され、さらに複数人の会話にも対応しました——2人のキャラクターが交互に話しても混乱しません。

また、実用的なアップデートもありました。以前は「テキストから動画」でしか音声を追加できませんでしたが、現在は「食材から動画」(画像をアップロードして動画生成)や「フレーム拡張」(動画の長さを延長)などの機能でも音声がサポートされています。

ただし、はっきりさせておくと、Veo 3.1が生成する音声はあくまで「first draft(初稿)」のようなものです。コミュニティのフィードバックによると、音声の自然さは人間の録音の92%に達しますが、プロのプロジェクトを行う場合は、やはり後処理で微調整が必要です。なにしろ、現在は動画1秒あたり$0.75もかかるので、そのまま完成品として使うのは少し冒険です。

音声プロンプトの核心原則:明確さこそ力

なぜ無音動画が生成されるのか

私がVeo 3を使い始めた頃、生成した動画の約70%が無音でした。AIが壊れていたわけではなく、私のプロンプトが曖昧すぎたのです。

Veo 3にはある設計ロジックがあります。それは「自発的に音声を追加しない」ということです。あなたが言わなければ、無音動画を求めていると見なされます。

例えば “A woman walking in the rain.”(雨の中を歩く女性)と書いたとします。
Veo 3は忠実に雨の中を歩く女性の映像を生成しますが、雨音も足音も、何もありません。

これを “A woman walking in the rain. Audio: rain pattering on pavement, footsteps splashing through puddles.”(雨の中を歩く女性。音声:舗道に当たる雨音、水たまりを跳ねる足音)に変える必要があります。
これで初めてAIは「ああ、雨音と足音が欲しいんだな」と理解します。

もう一つ落とし穴があります。FlowでVeo 3を使う場合、品質モードを「Highest Quality」にするのを忘れないでください。デフォルトのプレビューモードでは音声が生成されません。私は最初ここでつまずき、十数回試しても音が出ず、後になって設定の問題だと気づきました。

3大音声タイプ別プロンプト戦略

さて、本題の音声プロンプトの書き方です。

会話系 (Dialogue):フォーマット固定で効果アップ

公式はシンプルです:キャラクター描写 + アクション + 引用符で囲んだセリフ

❌ 悪い例:
“A woman says hello.”(曖昧すぎて、AIは何をどう言えばいいかわからない)

✅ 良い例:
“The woman smiles and says, ‘Welcome to Veo 3.’”(女性は微笑んで「Veo 3へようこそ」と言う)

トーンを制御したい場合は、感情を表す副詞を加えます:

  • angrily(怒って)
  • nervously(緊張して)
  • softly(優しく)
  • excitedly(興奮して)

完全な例:
“The man leans forward and says angrily, ‘Where is my coffee?’”(男は身を乗り出し、怒って「俺のコーヒーはどこだ?」と言う)

効果音系 (Sound Effects):アクション + 音の描写

このタイプのプロンプトは、音の詳細まで具体的にする必要があります。

❌ 曖昧な例:
“a phone”(AIは電話がどうなるのかわからない)

✅ 具体的な例:
“the sound of a phone ringing”(電話が鳴る音)
“water splashing in the background”(背景で水が跳ねる音)
“soft house sounds, the creak of a closet door, and a ticking clock”(静かな家の中の音、クローゼットのドアがきしむ音、時計のチクタク音)

小技として、“as”、“when”などの単語を使って効果音を画面のアクションと結びつけると良いです。
“As the door creaks open, a gust of wind rushes in.”(ドアがきしんで開くと同時に、突風が吹き込む)
これで音と映像の因果関係がはっきりします。

環境音系 (Ambient Noise):シーン + 背景音のレイヤー

環境音は「レイヤー(階層感)」を描写しないと、平坦に聞こえてしまいます。

❌ 薄っぺらい例:
“city sounds”(大雑把すぎる)

✅ レイヤーのある例:
“the sounds of city traffic and distant sirens”(近景の交通音 + 遠景のサイレン)
“waves crashing on the shore”(メイン音)
“the quiet hum of an office”(ベースノイズ)

空間オーディオ記述テクニック

これは上級テクニックですが、本当に役立ちます。

人間の耳は音の方向感を持っています。近くの音ははっきりと、遠くの音はぼやけて聞こえます。Veo 3もこれを理解できますが、あなたが教える必要があります。

以下の言葉を使って空間関係を描写します:

  • in the distance(遠くで)
  • cuts through(突き抜ける、メイン音を表す)
  • somewhere above(上のどこかで)
  • faintly(かすかに)
  • echoing(反響する)

完全な例(実測で効果が良かったもの):

Rain falls steadily onto wet pavement, pattering softly across rooftops and metal bins.
A single, low thunderclap rolls across the sky, echoing faintly between tall buildings.
A car passes faintly in the distance. A dog barks once.
A soft, tense melody plays from an old radio somewhere above.

見てください、ここには以下の要素があります:

  • 近景メイン音:地面に当たる雨
  • 中景補助:遠くで反響する雷鳴
  • 遠景背景:通り過ぎる車、犬の一鳴き
  • 環境音:上のどこかにあるラジオ

このような階層化された音声記述を、Veo 3は非常に正確に理解します。

会話生成実践:キャラクターに喋らせる

一人の会話のベストプラクティス

会話生成はVeo 3の音声機能の中で最も難しい部分です。技術的に難しいのではなく、ルールが多いのです。

第一の鉄則:会話は短く、一文で、8秒以内。

キャラクターに長々と喋らせようとしましたが、セリフが欠落したり、口の動きが乱れたりしました。結局、Veo 3の長尺会話の同期能力はまだ安定していないことがわかりました。会話を複数のクリップに分けるか、一言で終わらせるのが無難です。

第二のルール:感情 + アクション + 言葉、三位一体で書く。

❌ 平坦な例:
“He says, ‘Did you hear that?’”

✅ 緊張感のある例:
“He bursts into wild laughter, head thrown back. Mid-laugh, he stops, eyes widening in terror, then whispers softly: ‘Did you hear that?’”

違いがわかりますか? 後者は感情の変化のプロセス(大笑い→突然停止→恐怖→囁き)が書かれています。Veo 3はこの感情の転換を生成でき、効果は非常にリアルです。

第三のルール:キャラクターの一貫性が重要。

複数のクリップを生成する場合、毎回同じキャラクター描写を使ってください。例えば “a woman in a red coat with short black hair” という描写は、すべてのプロンプトで完全に一致させる必要があります。そうしないとAIは別のキャラクターを生成し、声も変わってしまいます。

複数人会話のテクニック

二人が同時に話す——これはVeo 3の音声生成にとって悪夢のようなシナリオです。

以前、会話スクリプトをそのまま書いてみました:

Man: "What are you doing?"
Woman: "None of your business."

結果は惨憺たるものでした。一人しか声が出なかったり、二人の会話が画面と合わなかったりしました。

正しいアプローチは:会話スクリプトを書くのではなく、シーンの流れを書くこと。

✅ 有効な例:
“Inside a cluttered garage, two teenage friends argue over a broken time machine. One leans over the table, frustrated and loud. The other avoids eye contact, mumbling and fiddling with wires. Rain hits the roof, and the lights flicker.”

この書き方のロジックは、AIに「Aがこれを言い、Bがそれを言う」と教えるのではなく、「二人が口論している」と理解させることです。誰がいつ、どう話すかはVeo 3に任せます。

ただ正直に言うと、複数人会話の成功率はまだ単独より低いです。複雑な会話を作りたいなら、各クリップで一人だけ喋らせて、後でつなぎ合わせることをお勧めします。

リップシンク最適化

口の動きが合わないのは、会話生成で最もよくある問題です。

3つのアドバイス:

1. 各クリップで一人のキャラクターだけ話させる
前述しましたが、本当に繰り返す価値があります。複数の話者が同時に登場すると、同期が乱れやすくなります。

2. 明確な「交代」記述を使う
どうしても複数人の会話が必要な場合、誰が先に話し、誰が後に話すかを明確にします。
“The woman speaks first, then pauses. The man nods and replies.”

3. “No subtitles.” を追加する
この詳細は多くの人が知りません。Veo 3は時々自動的に字幕を生成して画面に被せ、キャラクターの口を隠してしまうことがあります。“No subtitles.” を追加してこの機能を無効にしましょう。

中国語と英語の会話の違い

厳しい現実をお伝えします:中国語の会話効果は英語よりはるかに劣ります。

約20個の中国語会話プロンプトをテストしましたが、成功率は30%未満でした。よくある問題:

  • セリフ欠落:三文書き込んだのに、一文しか生成されない
  • 話者混乱:Aが話すべきなのに、Bの口が動く
  • 奇妙なアクセント:標準語がロボットのように聞こえる

英語はずっと良く、同じシーンでも英語プロンプトなら成功率は70%以上に達します。

回避策:核心の会話は英語にし、シーン描写は中国語(または日本語)にする。

例えば(日本語の場合):
“赤いコートを着た女性がカフェに入り、ウェイターに微笑んで言う:‘One cappuccino, please.’”(シーンは日本語、会話は英語)

これならプロンプトの理解もしやすく、会話効果も損なわれません。

効果音とBGM:没入体験を作る

効果音のレイヤー設計

効果音は多ければいいというものではありません。音を詰め込みすぎると、うるさく聞こえます。

私の経験では:3層に分け、主従をはっきりさせること。

前景 (Foreground) —— 核心アクション音
視聴者の注意の焦点です。ドアが開く音、カップが割れる音、足音など、これらは明瞭で大きくする必要があります。

中景 (Midground) —— 補助環境音
メイン音を邪魔せず、リアリティを増す音。カフェのコーヒーマシンの動作音、客の話し声など。

背景 (Background) —— 雰囲気音楽
底に敷く音で、情緒を作ります。静かなジャズ、遠くの交通音など。

完全な例(カフェシーン):

Audio: espresso machine hissing (foreground), soft jazz music (background),
customers chatting quietly (midground). The barista says: "One cappuccino coming right up!"

括弧でレイヤーを注記すると、Veo 3はより正確に理解します。注記しないと、BGMが大きすぎて会話をかき消してしまうことがあります。

BGMの感情制御

BGMは最も見落とされがちですが、超重要な部分です。

音楽ジャンルを明確に:

  • jazz(ジャズ)
  • classical(クラシック)
  • electronic(エレクトロニック)
  • ambient(アンビエント)
  • upbeat(アップビート)

感情修飾語:

  • tense(緊張した)
  • upbeat(陽気な)
  • melancholic(憂鬱な)
  • mysterious(神秘的な)

具体例:

  • “A soft, tense melody plays”(柔らかいが緊張感のあるメロディー)
  • “Upbeat festival music with steady drums”(安定したドラムビートのある陽気な祭り音楽)

多くの人が知らない詳細:音楽のtempo(テンポ)も制御できます。

  • slow tempo(スローテンポ)→ 悲しみ、回想シーンに最適
  • fast tempo(ファストテンポ)→ アクション、追跡シーンに最適

音声衝突を避ける

これは私がハマった最大の落とし穴です。

最初は、効果音が多いほどリアルだと思っていました。そこで5秒のクリップに、雨音、雷鳴、足音、交通音、会話、BGMの計6種類の音声要素を書きました。

結果は? 生成された動画はカオスで、何もはっきりと聞こえませんでした。

学習しました:1クリップにつき最大3〜4層の音声とし、主従関係を明確にする。

音量修飾語で優先順位を付けます:

  • loud(大きい)→ 前景メイン音
  • soft(柔らかい)→ BGM
  • faint(かすかな)→ 遠景環境音
  • dominating(支配的な)→ 核心効果音

例:
“Loud thunder crashes (dominating). Rain patters softly on the roof (background). A car engine starts faintly in the distance.”

これでVeo 3は、雷鳴が主役、雨声は背景、車音はアクセントだと理解します。

トラブルシューティング:5つのよくある音声問題と解決策

問題1:生成された動画に音がない

これが最も一般的な問題で、「無声動画」の約85%は以下の3つの原因です。

原因1:プロンプトで音声を明確に指定していない

プロンプトを確認してください。“Audio:”、“says”、引用符付きの会話などのキーワードはありますか? なければ、Veo 3はデフォルトで無音動画を生成します。

解決策:

  • 独立した文で音声を記述する:“Audio includes…”
  • 会話を引用符で囲む:“The man says, ‘Hello.’”
  • どうしてもうまくいかない場合、これを追加:“Please generate this with clear speech.”

原因2:品質モードの間違い

Flowには2つのモードがあります:Preview(プレビュー)とHighest Quality(最高品質)。プレビューモードでは音声が生成されません。

解決策:
Flowを開く → 設定アイコンをクリック → “Highest Quality” を選択

原因3:プロンプト内で音声記述が埋もれている

画面描写に300文字使い、最後にちょこっと “with dialogue” と書いただけでは、Veo 3は音声指示を見落とす可能性があります。

解決策:
音声指示を前に持ってきて、プロンプトの前半に配置します。

問題2:会話と口の動きが合わない

口の動きが定まらず、音が口より半拍早い——この問題は複数人会話で特によく起こります。

根本原因:AIが複数の話者を同時に処理する際に混乱している。

解決策:

  1. クリップ分割:8秒ごとに一人の話者だけにし、後で繋げる
  2. 会話短縮:一言を5秒以内に収める
  3. 「交代」記述の使用:“The woman speaks first, pauses, then the man responds.”

実測では、単独会話のリップシンク成功率は80%ですが、複数人は40%しかありません。リップシンクの要求が高いなら、無理は禁物です。

問題3:音声品質が悪い、または不自然

音が「浮いている」、「機械的」、「ロボットみたい」。

原因:プロンプトが曖昧で、声の特徴描写が欠けている。

例えば “A man speaks” と書くと、AIはその男の声がどういうものかわかりません。低い?高い?しわがれ声?情報がないため、「平均的な男の声」を生成するしかありません。

解決策:

  1. 声の特徴描写を加える

    • clear(クリアな)
    • raspy(しわがれた)
    • sharp(鋭い)
    • deep(低い)
  2. 環境のリバーブ(残響)を記述する

    • indoor reverb(室内の残響)
    • outdoor, open space(屋外、開けた場所)
    • echoing space(反響する空間)
  3. アクセントと話速を指定する(英語会話の場合)

    • British accent(イギリスアクセント)
    • slow, deliberate pace(ゆっくりとした慎重なペース)

完全な例:
“A man with a deep, raspy voice speaks slowly in an indoor space: ‘Welcome home.’”

問題4:効果音と画面が一致しない

キャラクターが木の床を歩いているのに石の上を歩いているような音がする。またはドアが開く音が画面より1秒早い。

原因:効果音の記述と視覚的シーンが乖離している。

解決策:
同じ文の中で視覚と音声を同時に記述し、因果関係を示す言葉で繋ぐ。

❌ 分離した記述:
“A door opens. There is a creaking sound.”

✅ 結合した記述:
“As the door creaks open, a gust of wind rushes in.”

以下の単語で因果関係を作ります:

  • as(〜すると同時に)
  • when(〜する時)
  • while(〜している間)
  • making(〜の音を立てて)

例:
“She walks across the wooden floor, her heels clicking sharply with each step.”

問題5:BGMが会話や効果音をかき消す

これは特にイライラする問題です。せっかく設計した会話が、BGMで完全にかき消されてしまうのです。

原因:音声のレイヤーと音量関係が不明確。

解決策:
音量修飾語を使って誰が主役か明記する。

❌ レイヤーなし:
“Background music plays. The woman says, ‘Hello.’”

✅ レイヤーあり:
“Soft background music plays quietly. The woman’s voice cuts through clearly: ‘Hello.’”

重要な修飾語:

  • soft background music(柔らかなBGM)
  • loud foreground dialogue(大きな前景会話)
  • voice cuts through(声が突き抜ける)
  • music fades into background(音楽が背景に退く)

もう一つのテクニック:会話が重要な場合は、いっそBGMを入れない。シンプルですが効果的です。

上級テクニック:音声生成成功率を上げる

Veo 3プロンプトジェネレーターを使う

手書きのプロンプトでは詳細を漏らしがちです。楽な方法があります:プロンプトジェネレーターを使うことです。

おすすめの2つの無料ツール:

  1. prompt-helper.com/veo-3-prompt-generator
    ログイン不要、シーン描写を入力すると、音声指示を含む完全なプロンプトを自動生成します。

  2. Google公式 Veo 3.1プロンプトジェネレーター
    Flowエディタに統合されており、あなたのシーンに基づいて自動的に音声要素を提案します。

私は現在、複雑なシーンを作る際は基本的にジェネレーターで下書きし、手動で詳細を調整しています。かなりの時間を節約できます。

コスト管理戦略

Veo 3の料金モデル:$0.75/秒。

8秒動画で$6、1分で$45かかります。5〜6回試行錯誤すると、お金があっという間に飛びます。

節約テクニック:

1. 低品質モードで先にテスト
Flowには「Draft」モードがあり、生成が速く安価ですが、音声は生成されません。
まず画面構成をテストし、OKならHighest Qualityで音声版をレンダリングするのに適しています。

2. 動画時間を短くする
いきなり60秒生成しないこと。まずは5〜8秒のテストクリップを作り、音声効果に満足したら時間を延長しましょう。

3. “Extend”機能を活用
Veo 3.1のExtend(拡張)機能は既存の動画を延長でき、再生成より安価です。しかもExtendは音声の継続もサポートしています。

Flowエディタとの連携による後処理

Veo 3.1とFlowは深く統合されており、一部の音声問題は後処理で修正できます。

可能な後処理:

  • 音量バランス:BGMが大きすぎる場合、Flowのオーディオ調整ツールで音量を下げられます
  • クリップ結合:複数の単独会話クリップをつなげて完全な会話にする方が、直接複数人会話を生成するより確実です
  • 音声置換:映像は残し、音声トラックだけ差し替える(「ネイティブ音声」の趣旨には反しますが、救済策としては有効)

Flowの”Extend”機能は特に実用的です:
8秒の音声付き動画を生成し、Extendで15秒に延長すると、音声が自然に続きます。15秒を一気に生成するより成功率が高いです。

ただ正直なところ、Flowの音声編集能力はまだ基礎的なものです。プロ級の音声ポスプロを行うなら、PremiereやFinal Cutに書き出して編集する方が良いでしょう。

結論

長くなりましたが、核心は3つです:

音声を明確に指定する——Veo 3は空気を読んでくれません。欲しい音を伝えてください。

レイヤー設計——会話、効果音、BGMの主従をはっきりさせ、詰め込まないこと。

短文原則——会話は8秒以内に抑え、一度に一人だけ話させること。

Veo 3の音声生成は確かにコツを掴むまで何度か試す必要があります。私自身、この法則を見つけるまでに約20本のテスト動画を無駄にしました。しかし一度習得すれば、動画制作効率は何倍にも上がります——従来の4時間の吹き替え作業が、今では3分で終わります。

Veo 3.1の中国語(日本語)サポートはまだ不十分で、複数人会話の同期率も改善の余地がありますが、これは動画生成分野における大きな一歩です。GoogleはVeo 3を急速に反復させているので、来年にはこれらの問題も改善されるでしょう。

さあ、今すぐ行動しましょう:

  1. Veo 3を開き、Highest Qualityモードを選択する
  2. この記事からプロンプトテンプレートをコピーし、自分のシーンに合わせて書き換える
  3. 初めての音声付きAI動画を生成する

問題にぶつかったら、第5章のトラブルシューティングリストを見直してください。音声生成は技術が必要ですが、黒魔術ではありません。数回試せば、きっとわかります。

FAQ

なぜVeo 3で生成した動画に音がないのですか?
よくある3つの原因:

1) プロンプトで音声を明確に指定していない:
• Audio:、says、引用符付き会話などのキーワードを含める必要があります

2) 品質モードの間違い:
• Highest Qualityを選択する必要があります
• プレビューモードでは音声は生成されません

3) 音声記述が埋もれている:
• 音声指令をプロンプトの前半に配置してください
どうすればキャラクターに喋らせることができますか?
フォーマットを使用:キャラクター描写 + アクション + 引用符付き会話

例:'The woman smiles and says, "Welcome to Veo 3."'

注意点:
• 会話は短く、8秒以内に抑える
• 感情を制御するために副詞(angrily, softly, excitedly)を加える
会話と口の動きが合わない場合は?
3つの解決策:

1) クリップを分割し、8秒ごとに一人の話者だけにする

2) 会話を短縮し、一言を5秒以内に収める

3) 明確な「交代」記述を使う

成功率の比較:
• 単独会話のリップシンク成功率は80%
• 複数人会話は40%のみ
効果音とBGMを追加するには?
マーク方法:
• 効果音は SFX でマーク
• 環境音は Ambient でマーク

3層設計:
• 前景(核心アクション音)
• 中景(補助環境音)
• 背景(雰囲気音楽)

テクニック:
• 括弧でレイヤーを注記する
• 音量修飾語(loud, soft, faint)で主従関係を明確にする
• 1クリップにつき最大3〜4層の音声にする
中国語(日本語)の会話効果が英語より悪いのはなぜ?
中国語(日本語)会話の成功率は30%未満で、以下の問題があります:
• セリフ欠落
• 話者混乱
• 奇妙なアクセント

英語プロンプトの成功率は70%以上です。

回避策:核心会話は英語にし、シーン描写は中国語(日本語)にする

例:'赤いコートを着た女性がカフェに入り、ウェイターに微笑んで言う:"One cappuccino, please."'
音声生成のコストを抑えるには?
3つの節約術:

1) 先にDraftモードで画面構成をテストし、確認後にHighest Qualityで音声版をレンダリングする

2) 動画時間を短くし、まず5〜8秒のテストクリップを作る

3) Extend機能を使って既存の動画を延長する(再生成より安い)

Veo 3の料金は $0.75/秒、8秒動画で $6 です。

12 min read · 公開日: 2025年12月7日 · 更新日: 2026年1月22日

コメント

GitHubアカウントでログインしてコメントできます

関連記事