Googleが公開した ヴェオ 3.1 (そして Veo 3.1 Fast 2025年10月中旬に、より忠実度の高い短いクリップを生成する改良されたテキスト動画モデルとして、 ネイティブオーディオ、プロンプトの遵守の向上、および新しい編集機能など シーン/クリップ拡張子, フレーム間補間, 画像誘導 生成(最大3枚の参照画像を使用)。Veo 3.1は、 APIは、 双子座 アプリと Flow クリエイティブツールであり、エンタープライズ開発者に公開されています。 頂点AI Google AI Studio(プラットフォームとプランによって利用可能範囲が異なります)との統合により、より多くのUI編集コントロール(ライティング/シャドウ、オブジェクトの挿入/削除は近日中に提供開始)が利用可能になり、APIは開発者向けにプログラムによる生成機能と拡張機能を提供します。
Veo 3.1 (Flow、CometAPI/Gemini API — ステップバイステップ) を使用してビデオを編集する方法についてガイドします。
Veo 3.1 は何をするもので、どこから来たのでしょうか?
Veo 3.1は、Googleのジェネレーティブビデオモデル(Veo)ファミリーの最新版であり、テキストプロンプト(オプションで画像や既存のビデオフレーム)を、合成音声(セリフ、環境音、SFX)付きの短くてまとまりのあるフォトリアルまたは様式化されたビデオクリップに変換するために構築されています。3.1アップデートでは、 より良いリアリズム, より豊かなネイティブオーディオ, 継続のためのツール (シーン拡張とフレーム補間)、Veo は Google のテキストおよび画像モデルに対応するビデオ中心のモデルとして位置付けられます。
3.1 の主なアップグレードは次のとおりです。
- 生成されたクリップのネイティブオーディオとダイアログ合成 (別個の音声パイプラインは不要)。
- フレーム間の補間 (生成されたクリップを駆動する最初のフレームと最後のフレーム)。
- 画像ガイドによる生成 (文字/スタイルの一貫性を維持するために最大 3 つの参照画像を使用します)。
- シーンの拡張 (前のクリップの最後の 1 秒から接続クリップを生成することで連続性を維持します)。
- プロンプトの遵守が向上し、映画のコントロールが強化されました。
Veo 3.1 はどこで実行されますか?
Veo 3.1はGoogleの API (有料プレビュー)、 Vertex AI / モデルガーデン, Gemini モバイル/ウェブアプリFlow および Veo Studio デモに統合されました。 コメットAPI Veo の統合も開始しました。
FlowでVeo 3.1を使って動画を編集するにはどうすればいいですか?ステップバイステップで解説します
以下では、Flow での編集 (作成者 UI)、Gemini アプリの使用 (クイック生成)、およびプログラムによる Gemini API / Vertex AI の使用 (制作と自動化用) という、最も一般的なプログラムと UI のワークフローについて説明します。
Flow (クリエイター UI) を使用してビデオを編集するにはどうすればよいですか?
Flow 映画制作者/クリエイター向けのGoogleのクリエイティブUIで、Veoモデルを統合して生成します。 および 編集コントロール(ライティング、シャドウ、シーン構成、オブジェクトの挿入/削除ツール)のセット。Flow の Veo 3.1 では、以下のことが可能です。
- より豊かなオーディオでショットを生成または再生成します。
- 「動画の材料」を使用します(一貫したキャラクター/スタイルのために参照画像をアップロードします)。
- シーン拡張 (新しいクリップを以前のクリップの終了に接続) を使用して、シーンを拡張したり、複数のショットを連結したりできます。
- UI 内で基本的なオブジェクトの挿入と (すぐに) 削除を適用します。
Flow で基本的な編集を実行するにはどうすればいいですか (実践的な手順)?
- シード クリップ (テキスト プロンプトまたは画像プロンプト) を作成/生成します。
- タイムラインを使用してクリップの最後を選択し、 延長 (シーン拡張)アクションの継続またはモーションの追加を促す新しいプロンプトが追加されました。拡張ごとに小さなジャンプが追加され、システムが連続性を保つためにブレンドします。
- オブジェクトの変更には、挿入ツールを使用します(追加するアイテムと場所を記述してください)。削除の場合は、Flowの削除ツール(利用可能な場合)を使用し、合成アーティファクトを確認してください。
- エクスポートし、必要に応じて、従来の NLE (Premiere、DaVinci Resolve) で仕上げて、カラー グレーディング、字幕、正確なカットを行います。
Flow は、反復的なクリエイティブ編集を迅速に行えるように設計されています。タイムライン編集と生成置換のハイブリッドとして扱ってください。
Veo 3.1 APIを使用してプログラムでビデオを編集または生成するにはどうすればよいですか?
主なプログラムルートは 2 つあります。
- Gemini API (生成言語 / Gemini SDK) — 生成と拡張のために Veo モデルを直接呼び出すために使用されます (例は Google の Gemini API ドキュメントに記載されています)。
- CometAPI (OpenAIフォーマット/チャット) - CometAPIは、 Gemini 3 Pro イメージ(Nano Banana Pro),ジェミニ 3 プロ チャット、画像、音楽、動画生成のための100以上のAIモデルにアクセスすることができます。 ヴェオ 3.1 OpenAI スタイルのチャット ポイント経由。
Veo 3.1 による編集は、いくつかの異なるフローから構成されています。各フローは、モデルへの入力(テキスト / 画像 / 動画)とポストプロセス処理を組み合わせ、制作環境に適した結果を生成します。
Veo 3.1はAPIを通じて公開されています。典型的なパターンは、長時間実行される generateVideos 操作 - ジョブを投稿し、操作をポーリングし、完了したら出力ファイルをダウンロードします。
以下は簡略化された実行可能な例です。API キーと環境に合わせて調整してください。環境の SDK と認証ガイダンスを参照してください。
JavaScript (Node) の例 - 生成とポーリング
この例は、Gemini API スタイルの使用に基づいています。
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
このパターン (送信 → 投票 → ダウンロード) は、Gemini ドキュメントの標準的な方法です。
Python SDK の代わりに curl / REST を使用できますか?
はい。公式ウェブページにはSDKが示されていますが、基盤となるveo 3.1はREST経由で使用できます。実装は環境によって異なります(Gemini APIとCometAPI REST)。curlを使用する場合は、適切な認証(Google CloudのベアラートークンまたはcometAPI APIキー)を使用し、製品固有のビデオ生成エンドポイントを使用してください。CometAPIの擬似curlの例(認証とエンドポイントに合わせて調整してください):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
重要: 正確なREST URLとペイロード構造は、 ジェミニ API or コメットAPI エンドポイント—リクエストを送信する前に製品ドキュメントを参照してください。SDKは多くの認証とポーリングの詳細を処理します。
Veo 3.1 の使用方法 - どのようなワークフローがサポートされていますか?
以下では、Veo 3.1 で編集する際に使用する実用的なフロー、つまり UX フロー(Flow/Gemini Studio)、およびプログラムフロー(Gemini API / Vertex API)について解説します。それぞれのフローについて、例、注意事項、そしてコピー可能な小さなコードスニペットを紹介します。
Veo 3.1 による編集は、いくつかの異なるフローから構成されています。各フローは、モデルへの入力(テキスト / 画像 / 動画)とポストプロセス処理を組み合わせ、制作環境に適した結果を生成します。
主な編集ワークフロー
頻繁に使用する実用的な編集フローは 3 つあります。
- テキスト駆動型の編集と再生成 — プロンプトを書き直すか、同じシーンに新しい指示を適用してショットを変更します。
- 参照画像ガイド編集 (「ビデオの材料」)— 生成されたフレーム全体でキャラクターまたはオブジェクトを保存するために、最大 3 枚の画像を提供します。
- フレーム補間(最初と最後のフレーム) — 開始画像と終了画像を指定すると、Veo はそれらの画像間の遷移シーケンスを生成します (要求に応じてオーディオも生成します)。
- シーン拡張 — 前のクリップの最後の 1 秒から続く接続クリップを生成することで、既存の Veo 生成クリップ (またはその他のクリップ) を拡張します。
- オブジェクトの挿入/削除およびその他のフロー編集ツール — いくつかの Flow UI 機能 (オブジェクトの挿入/削除、落書きプロンプト、カメラアングルの再撮影) が Veo 機能に追加され、GUI でのフレーム レベルのレタッチに役立ちます。
注意事項とヒント:適切な認証(Gemini APIキーまたはCometAPI APIキー)を使用してください。例ではveo-3.1-generate-previewを使用しています。モデルIDとパラメータ名はSDKのバージョンやリージョンによって若干異なる場合があります。CometAPIのveo 3.1モデルIDはveo3.1-proとveo3.1です。
1) テキスト → ビデオ(新世代)
使用事例: スクリプトまたはクリエイティブプロンプトからまったく新しい短いクリップを作成します。
フロー:
- シーンの説明、カメラの方向、オーディオ キュー (会話または効果音) を含む明確なテキスト プロンプトを準備します。
- ジェミニに電話する ビデオを生成する Veo 3.1 モデルを使用したエンドポイント。
- 生成が完了するまで長時間実行操作をポーリングし、結果の MP4 をダウンロードして、確認して反復します。
簡単な Python の例 (テキスト → ビデオ):
公式Googleを使用する ゲンナイ Python 用クライアント。このスニペットは、Veo 3.1 を使用してプロンプトから短いビデオを生成する方法を示しています。
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) 画像 → ビデオ(ソース画像をアニメーション化する)
使用事例: 製品のショット、キャラクターのポートレート、または 1 枚の写真を短いクリップにアニメーション化します。
フロー:
- 初期画像を作成または選択します (Nano Banana などの画像モデルによって生成できます)。
- 画像をアップロードします
imageパラメータと呼び出しgenerate_videos、オプションで供給referenceImagesまたはlastFrame補間用。 - プロンプトまたは画像アセットを取得して確認し、繰り返します。
Python 画像→ビデオ スニペット (画像は別途生成されます):
Veo 3.1の最も実用的な機能の1つは 参考画像: 生成されたビデオがフレーム間でその外観を保持できるように、最大 3 枚の画像 (人物、製品、オブジェクト) を提供します。
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
実用的なヒント:
- 被写体を便利な角度から撮影した、鮮明で明るい参照画像を優先します。
- 参照を使用すると、複数のショットのシーケンスにわたって製品のアイデンティティ、衣服、またはキャラクターの顔を維持できます。
- 著作権で保護された画像や個人の写真を許可なく使用しないでください。
3) ビデオツービデオ / 延長(継続または再撮影)
使用事例: 既存の生成済みクリップを拡張したり、アクションを終了を超えて継続したり、以前に生成したビデオを再編集のベースとして使用したりします。
フロー:
- 生成されたビデオを
video入力して、ビデオがどのように続くかを説明するプロンプトを作成します(例:「延長:主人公がドアを開けて光の中へ歩きます」)。 - 拡張モードを使用する — Veo 3.1 は最後の1秒を確定し、モーションを継続します。注: 最後の1秒に音声が存在しない場合、音声拡張の信頼性は低くなります。
Python の例 (既存のビデオを拡張する):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
ワークフローノート: クリップを繰り返し延長(新しく生成されたクリップを前のクリップの末尾につなぎ合わせる)して、より長いシーケンスを構築します。アーティファクトの蓄積に注意してください。忠実度を維持するために、定期的に高品質の参照フレームに再アンカーするか、セクションを再生成してください。
4) フレームごとの編集(最初と最後のフレーム、参照画像)
開始フレームから終了フレームに遷移するビデオを作成できます。最初に画像を生成し (たとえば、Gemini 画像モデルを使用)、次にその画像を画像として渡し、構成で last_frame を設定して補間を駆動します。
使用事例: 緊密な視覚的連続性が必要な場合、または指定された 2 つのフレーム間でアニメーション化したい場合。
フロー:
- 最初のフレームと最後のフレームを生成またはアップロードします。
- Veo 3.1を呼び出す
image=first_frameおよびconfig.last_frame=last_frame. - モデルはこれらのフレーム間を補間し、プロンプトに一致する妥当な動きと音声を生成します。
なぜこれが重要なのか: クリエイティブなコントロールのために、最初/最後のフレームを使用すると、開始/終了のカメラのフレーミングと構成を正確に定義できます。これは、VFX、連続性、または物語のビートにとって重要です。
Python(画像→動画)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
これにより、定義された 2 つの視覚アンカー間のスムーズな補間が可能になります。
Veo 3.1 に最適なプロンプトと入力戦略は何ですか?
Veo 3.1は、視覚的な構成、動き、音、感情的なトーンを明確に説明する構造化されたプロンプトに最もよく反応します。GoogleのVeo 3.1向け「プロンプトガイド」では、具体的な要素が推奨されています。以下に、簡潔なチェックリストを示します。
プロンプト解剖学(推奨)
- メインシーン — 簡潔な文章: 誰が/何を、主な行動。
- カメラの説明 — クローズアップ / ワイド / ドリー / ステディ / ハンドヘルド、カメラの動きとフレーミング。
- タイミングとペース — 「ゆっくり」、「映画のような 24fps 感」などの短いヒント、または精度が必要な場合はフレーム数。
- オーディオキュー — 背景音、特定の効果音、またはセリフ(引用符で囲んで)を指定します。Veo 3.1 はネイティブオーディオを合成できます。
- スタイルと参照 - 含む
referenceImagesまたは、写真/フィルムのスタイルについて言及します。「フィルム ノワール、高コントラスト、コダック 500 のような感じ」。 - 否定的なプロンプト — あなたが しない 望ましくない結果を減らすために、希望するオプション(例:「ロゴなし、テキストなし、漫画スタイルなし」)を選択します。
参照画像の使用
画像ガイダンスと最初/最後のフレーム補間はVeo 3.1の機能です。一般的な高品質パイプラインは以下のとおりです。
- 人物や製品といった被写体の外観やスタイルを定義する画像モデル(Nano BananaまたはGemini画像モデル)を用いて、1~3枚の参照画像から静止画アセットを生成または調整します。Veoは参照アセットに基づいて被写体の外観を適切に維持します。
- それらのアセットを参照画像(または最初/最後のフレーム)に構成します。
- ビデオ生成/補間/拡張には Veo 3.1 を呼び出します。
- オプションで後処理 (カラーグレーディング、圧縮、手動編集) を標準のビデオ ツール (Premiere、DaVinci Resolve) で実行します。
トークン、長さ、解像度に関する考慮事項
- Veo 3.1 のテキスト入力にはトークン制限(例:一部のプレビューバリアントでは最大 1,024 トークン)があり、出力は通常 1 本の短い動画(例として 8 秒の動画がよく見られます)になります。簡潔かつ反復的な内容にしてください。より長いコンテンツを作成する場合は、複数のクリップをつなぎ合わせることをご検討ください。
結論 — Veo 3.1 がクリエイターと編集者にもたらす変化
Veo 3.1は、音声ネイティブの短編AI動画生成における実用的飛躍を表しています。単なる生成器ではなく、 編集アシスタント FlowやGemini Studioといったツールでは、クリエイターは同じ生成プリミティブを再利用しながら、オブジェクトの挿入/削除、カメラの再撮影といった精密な編集が可能です。開発者やポストプロダクションチームには、反復的なアプローチが推奨されます。APIを使って短いテイクを生成・延長し、参照フレームを使って連続性を保ち、最終的な合成とオーディオミキシングは従来のツールで行います。
開発者はアクセスできる Veo3.1 APIについて および Gemini 3 Pro イメージ(Nano Banana Pro) CometAPIを通じて。まずは、CometAPIのモデル機能を プレイグラウンド 相談する APIガイド 詳細な手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得していることを確認してください。 とeタピ 統合を支援するために、公式価格よりもはるかに低い価格を提供します。
準備はいいですか?→ 今すぐCometAPIに登録しましょう !
