Veo 3.1을 통해 비디오를 편집하는 방법

CometAPI
annaDec 2, 2025
Veo 3.1을 통해 비디오를 편집하는 방법

구글이 공개적으로 소개했습니다 베오 3.1 (그리고 Veo 3.1 Fast 2025년 10월 중순에 더 높은 충실도의 짧은 클립을 생성하는 개선된 텍스트-비디오 모델로 변형) 네이티브 오디오, 더 나은 신속한 준수 및 다음과 같은 새로운 편집 기능 장면/클립 확장자, 프레임 간 보간영상 유도 세대(최대 3개의 참조 이미지 사용). Veo 3.1은 다음을 통해 사용할 수 있습니다. API, 에 나타납니다 쌍둥이 자리 앱과 흐름 창의적인 도구이며 기업 개발자에게 노출됩니다. 버텍스 AI Google AI Studio(플랫폼 및 요금제에 따라 제공 여부가 다름)도 제공됩니다. Flow 통합을 통해 더 많은 UI 편집 제어 기능(조명/그림자, 객체 삽입/제거 기능 곧 제공 예정)이 제공되며, API를 통해 개발자를 위한 프로그래밍 방식 생성 및 확장 기능도 제공됩니다.

Veo 3.1(Flow, CometAPI/Gemini API - 단계별)을 통해 비디오를 편집하는 방법에 대한 가이드를 제공해 드리겠습니다.

Veo 3.1은 무슨 역할을 하며 어디에서 나왔나요?

Veo 3.1은 Google의 생성적 비디오 모델(Veo) 제품군의 최신 버전으로, 텍스트 프롬프트(및 선택적으로 이미지 또는 기존 비디오 프레임)를 합성 오디오(대화, 주변 소리, 음향 효과)가 포함된 짧고, 일관성 있고, 사실적이거나 스타일리시한 비디오 클립으로 변환하도록 설계되었습니다. 3.1 업데이트는 다음 사항에 중점을 둡니다. 더 나은 현실주의, 더 풍부한 네이티브 오디오연속성을 위한 도구 (장면 확장 및 프레임 보간)을 통해 Veo는 Google의 텍스트 및 이미지 모델에 대한 비디오 중심 대응 모델로 자리매김했습니다.

3.1의 ​​주요 업그레이드 내용은 다음과 같습니다.

  • 생성된 클립에 대한 네이티브 오디오 및 대화 합성(별도의 음성 파이프라인 필요 없음).
  • 프레임 간 보간(생성된 클립을 구동하는 첫 번째 및 마지막 프레임).
  • 이미지 가이드 생성(최대 3개의 참조 이미지를 사용하여 문자/스타일의 일관성을 유지합니다).
  • 장면 확장(이전 클립의 마지막 1초에서 시작된 연결 클립을 생성하여 연속성을 유지합니다).
  • 더욱 신속한 준수와 향상된 영화적 제어 기능.

Veo 3.1은 어디에서 실행되나요?

Veo 3.1은 Google에서 사용 가능합니다. API (유료 미리보기), Vertex AI / 모델 가든, 제미니 모바일/웹 앱Flow 및 Veo Studio 데모에 통합되었습니다. 코멧API Veo도 통합하기 시작했습니다.

Flow에서 Veo 3.1을 사용하여 비디오를 편집하는 방법은 무엇입니까? 단계별 설명

아래에서는 가장 일반적인 프로그래밍 및 UI 워크플로를 살펴보겠습니다. Flow에서 편집(생성자 UI), Gemini 앱 사용(빠른 생성), Gemini API/Vertex AI를 프로그래밍 방식으로 사용(프로덕션 및 자동화용).

Flow(제작자 UI)를 사용하여 비디오를 편집하려면 어떻게 해야 하나요?

흐름 영화 제작자/크리에이터를 위한 Google의 크리에이티브 UI로, Veo 모델을 통합하여 세대를 형성합니다. 편집 컨트롤 세트(조명, 그림자, 장면 구성, 객체 삽입/제거 도구). Flow에서 Veo 3.1을 사용하면 다음과 같은 작업을 수행할 수 있습니다.

  • 더욱 풍부한 오디오로 샷을 생성하거나 재생성합니다.
  • "비디오 재료"를 사용하세요(일관된 캐릭터/스타일을 위해 참조 이미지를 업로드하세요).
  • 장면 확장 기능을 사용하면 장면을 확장하거나 여러 샷을 연결할 수 있습니다(새로운 클립을 이전 클립의 엔딩에 연결).
  • UI 내에서 기본 객체 삽입 및 (곧) 제거를 적용합니다.

Flow에서 기본적인 편집을 수행하려면 어떻게 해야 하나요?(실제 단계)

  1. 시드 클립(텍스트 프롬프트 또는 이미지 프롬프트)을 만듭니다.
  2. 타임라인을 사용하여 클립의 끝을 선택하고 선택하세요 하다 (장면 확장) 액션을 계속하거나 동작을 추가할 수 있는 새로운 프롬프트가 추가되었습니다. 각 확장에는 시스템이 연속성을 유지하기 위해 혼합하는 작은 홉이 추가됩니다.
  3. 객체를 변경하려면 삽입 도구를 사용하세요(추가할 항목과 위치를 설명하세요). 삭제하려면 Flow의 제거 도구가 있는 경우 해당 도구를 사용하여 합성 아티팩트를 확인하세요.
  4. 필요한 경우 기존 NLE(Premiere, DaVinci Resolve)로 내보내어 색상 등급, 자막 또는 정밀한 편집을 위해 다듬습니다.
    Flow는 반복적인 창의적 편집을 빠르게 수행할 수 있도록 설계되었습니다. 타임라인 편집과 생성적 대체의 하이브리드라고 생각하면 됩니다.

Veo 3.1 API를 통해 프로그래밍 방식으로 비디오를 편집하거나 생성하려면 어떻게 해야 합니까?

두 가지 주요 프로그래밍 경로가 있습니다.

  • Gemini API(생성 언어/Gemini SDK) — Veo 모델을 생성 및 확장을 위해 직접 호출하는 데 사용됩니다(예시는 Google Gemini API 문서에서 제공됨).
  • CometAPI(OpenAI 형식/채팅)— CometAPI는 다음에 대한 액세스를 제공합니다. 제미니 3 프로 이미지(나노 바나나 프로),제미니 3 프로 , 채팅, 이미지, 음악 및 비디오 생성을 위한 100개 이상의 AI 모델에 액세스할 수 있습니다. 베오 3.1 OpenAI 스타일의 채팅 포인트를 통해.

Veo 3.1을 사용한 편집은 몇 가지 개별적인 흐름으로 나눌 수 있습니다. 각 흐름은 모델 입력(텍스트/이미지/비디오)과 후처리 단계를 결합하여 제작에 바로 사용할 수 있는 결과물을 얻습니다.

Veo 3.1은 API를 통해 공개됩니다. 일반적인 패턴은 장기 실행입니다. generateVideos 작업 - 작업을 게시하고, 작업을 폴링하고, 완료되면 출력 파일을 다운로드합니다.

아래에는 간소화되고 실행 가능한 예가 나와 있습니다. API 키와 환경에 맞게 조정하세요. 사용자 환경의 SDK 및 인증 지침을 참조하세요.

JavaScript(Node) 예제 - 생성 및 폴링

이 예제는 Gemini API 스타일 사용을 기반으로 합니다.

import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});

const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
  model: "veo-3.1-generate-preview",
  prompt,
});

// Poll
while (!operation.done) {
  console.log("Waiting...");
  await new Promise(r => setTimeout(r, 10000));
  operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos

이 패턴(제출 → 투표 → 다운로드)은 Gemini 문서의 표준 방법입니다.

Python SDK 대신 curl / REST를 사용할 수 있나요?

네, 공식 웹 SDK가 있지만, 기본 Veo 3.1은 REST를 통해 사용할 수 있습니다. 구현 방식은 환경(Gemini API vs CometAPI REST)에 따라 다릅니다. curl을 선호하는 경우, 올바른 인증(Google Cloud의 Bearer 토큰 또는 cometAPI API 키)을 따르고 제품별 비디오 생성을 위한 엔드포인트를 사용해야 합니다. CometAPI의 유사 curl 예시(인증 및 엔드포인트에 맞게 조정):

curl "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "veo-3.1",
    "prompt": "A simple prompt describing the action",
    "config": {"aspect_ratio":"16:9","length_seconds":8}
  }' --output generated_response.json

중대한: 정확한 REST URL 및 페이로드 구조는 다음을 사용하는지 여부에 따라 달라집니다. 제미니 API or 코멧API 엔드포인트 - 요청을 보내기 전에 제품 문서를 참조하세요. SDK가 여러 인증 및 폴링 세부 정보를 자동으로 처리해 줍니다.

Veo 3.1을 사용하는 방법 - 어떤 워크플로가 지원되나요?

아래에서는 Veo 3.1로 편집할 때 사용할 수 있는 실제적인 흐름, 즉 UX 흐름(Flow/Gemini Studio)과 프로그래밍 흐름(Gemini API/Vertex API)을 살펴보겠습니다. 각 흐름에 대한 예시, 주의사항, 그리고 복사 가능한 간단한 코드 조각을 보여드리겠습니다.

Veo 3.1을 사용한 편집은 몇 가지 개별적인 흐름으로 나눌 수 있습니다. 각 흐름은 모델 입력(텍스트/이미지/비디오)과 후처리 단계를 결합하여 제작에 바로 사용할 수 있는 결과물을 얻습니다.

주요 편집 워크플로

자주 사용하게 될 세 가지 실용적인 편집 흐름은 다음과 같습니다.

  1. 텍스트 기반 편집 및 재생성 — 프롬프트를 다시 작성하거나 동일한 장면에 새로운 지침을 적용하여 샷을 변경합니다.
  2. 참조 이미지 가이드 편집 ("비디오의 재료") - 생성된 프레임 전체에서 캐릭터나 객체를 보존하기 위해 최대 3개의 이미지를 제공합니다.
  3. 프레임 보간(첫 번째 및 마지막 프레임) — 시작 및 종료 이미지를 제공하면 Veo가 두 이미지 사이의 전환 시퀀스를 생성합니다(요청 시 오디오 포함).
  4. 장면 확장 — 이전 클립의 마지막 초부터 이어지는 연결 클립을 생성하여 기존 Veo에서 생성된(또는 다른) 클립을 확장합니다.
  5. 객체 삽입/제거 및 기타 Flow 편집 도구 — 일부 Flow UI 기능(객체 삽입/제거, 낙서 촉구, 카메라 각도 재촬영)이 Veo 기능에 추가되고 있으며 GUI에서 프레임 수준의 보정에 도움이 될 수 있습니다.

참고 및 팁: 적절한 인증(Gemini API 키/CometAPI API 키)을 사용하세요. 이 예시에서는 veo-3.1-generate-preview를 사용합니다. 모델 ID와 매개변수 이름은 SDK 버전 및 지역에 따라 약간 다를 수 있습니다. CometAPI의 veo 3.1 모델 ID는 veo3.1-pro와 veo3.1입니다.

1) 텍스트 → 비디오(신세대)

사용 사례 : 대본이나 창의적인 아이디어를 바탕으로 새로운 짧은 영상을 만들어 보세요.

흐름:

  1. 장면 설명, 카메라 방향, 오디오 신호(대화 또는 음향 효과)를 포함하는 명확한 텍스트 프롬프트를 준비합니다.
  2. 쌍둥이자리에게 전화하세요 비디오 생성 Veo 3.1 모델을 사용한 엔드포인트.
  3. 생성이 완료될 때까지 장기 실행 작업을 폴링하고, 결과 MP4를 다운로드한 다음 검토하고 반복합니다.

간단한 Python 예제(텍스트 → 비디오):

공식 Google을 사용하세요 제나이 Python용 클라이언트입니다. 이 스니펫은 Veo 3.1을 사용하여 프롬프트에서 짧은 비디오를 생성하는 방법을 보여줍니다.

# Requires google-genai Python client configured with credentials

import time
from google import genai

client = genai.Client()

prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
)

# Poll until done

while not operation.done:
    print("Waiting for generation...")
    time.sleep(8)
    operation = client.operations.get(operation)

# Save video

generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")

2) 이미지 → 비디오(소스 이미지에 애니메이션을 적용)

사용 사례 : 제품 사진, 캐릭터 사진 또는 단일 사진을 짧은 클립으로 애니메이션화합니다.

흐름:

  1. 초기 이미지를 생성하거나 선택합니다(Nano Banana와 같은 이미지 모델을 통해 생성 가능).
  2. 이미지를 업로드하세요 image 매개변수 및 호출 generate_videos, 선택적으로 공급 referenceImages 또는 lastFrame 보간을 위해.
  3. 프롬프트나 이미지 자산을 검색하여 검토하고 반복합니다.

Python 이미지→비디오 스니펫(이미지는 별도로 생성됨):

Veo 3.1의 가장 실용적인 기능 중 하나는 다음과 같습니다. 참조 이미지: 최대 3개의 이미지(사람, 제품, 사물)를 제공하여 생성된 비디오가 프레임 전체에 걸쳐 그 모습을 유지하도록 합니다.

# Python: use reference images with Veo 3.1

from google import genai
from google.genai import types
client = genai.Client()

prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."

# reference_image_* can be binary content or file references depending on the SDK

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=,  # up to 3

        aspect_ratio="16:9",
        length_seconds=8
    ),
)

# handle operation result and download as earlier example

실용 팁:

  • 피사체를 유용한 각도에서 포착한 선명하고 밝은 참조 이미지를 선호합니다.
  • 여러 샷으로 구성된 시퀀스에서 제품 정체성, 옷차림 또는 캐릭터의 얼굴을 유지하려면 참조를 활용하세요.
  • 허가 없이 저작권이 있는 이미지나 개인 이미지를 사용하는 것은 피하세요.

3) 비디오-투-비디오 / 확장(계속 또는 재촬영)

사용 사례 : 기존에 생성된 클립을 확장하거나, 클립이 끝난 후에도 작업을 계속하거나, 이전에 생성된 비디오를 재편집을 위한 기반으로 사용합니다.

흐름:

  1. 생성된 비디오를 다음과 같이 제공합니다. video 영상이 어떻게 계속되어야 하는지 설명하는 프롬프트를 입력하고 작성합니다(예: "확장: 주인공이 문을 열고 빛 속으로 걸어 들어갑니다").
  2. 확장 모드 사용 - Veo 3.1은 마지막 1초를 마무리하고 동작을 계속합니다. 참고: 마지막 1초에 오디오가 없으면 음성 확장 모드의 안정성이 떨어집니다.

Python 예제(기존 비디오 확장):

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    video=previous_generated_video,  # a Video object from previous generation

    prompt="Extend: The paraglider slowly descends and lands by a meadow.",
    config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...

워크플로우 참고사항: 클립을 반복적으로 확장하여(새로 생성된 각 클립을 이전 클립의 끝에 스티칭하여) 더 긴 시퀀스를 만듭니다. 아티팩트 누적을 염두에 두고, 고품질 참조 프레임에 주기적으로 다시 앵커링하거나 섹션을 재생성하여 충실도를 유지하세요.


4) 프레임별 편집(첫 번째 및 마지막 프레임, 참조 이미지)

시작 프레임에서 끝 프레임으로 전환되는 비디오를 제작할 수 있습니다. 먼저 이미지를 생성한 다음(예: Gemini 이미지 모델 사용) 해당 이미지를 image로 전달하고 config에서 last_frame을 설정하여 보간을 구동합니다.

사용 사례 : 긴밀한 시각적 연속성을 원하거나 두 개의 지정된 프레임 사이에 애니메이션을 적용하고 싶습니다.

흐름:

  1. 첫 번째 프레임과 마지막 프레임을 생성하거나 업로드합니다.
  2. Veo 3.1을 호출하세요 image=first_frameconfig.last_frame=last_frame.
  3. 이 모델은 프레임 사이를 보간하여 프롬프트에 맞는 그럴듯한 동작과 오디오를 생성합니다.

이것이 중요한 이유 : 창의적인 제어를 위해 첫 번째/마지막 프레임을 사용하면 VFX, 연속성 또는 내러티브 비트에 필수적인 시작/끝에 대한 카메라 프레이밍과 구성을 정확하게 정의할 수 있습니다.

파이썬(이미지 → 비디오)

# Step 1: make an image (using a Gemini image model)

image_resp = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents="A stylized watercolor painting of a fox in a moonlit forest",
    config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Transition to a fox bounding across snow toward the camera.",
    image=first_image,
    config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...

이를 통해 두 개의 정의된 시각적 앵커 사이에 원활한 보간이 가능합니다.

Veo 3.1에 가장 효과적인 프롬프트 및 입력 전략은 무엇입니까?

Veo 3.1은 시각적 구성, 동작, 소리, 감정적 분위기를 명확하게 설명하는 체계적인 프롬프트에 가장 잘 반응합니다. Veo 3.1에 대한 Google "프롬프팅 가이드"는 구체적인 구성 요소를 권장하며, 요약된 체크리스트는 다음과 같습니다.

신속한 해부학(권장)

  • 기본 장면 — 간결한 문장: 누구/무엇, 주요 행동.
  • 카메라 설명 — 클로즈업 / 와이드 / 돌리 / 스테디 / 핸드헬드, 카메라 움직임과 프레이밍.
  • 타이밍 및 페이싱 — "천천히", "영화 같은 24fps 느낌" 또는 정밀함이 필요한 경우 프레임 수와 같은 짧은 단서.
  • 오디오 신호 — 배경 분위기, 특정 음향 효과 또는 대화를 따옴표로 묶어서 지정하세요. Veo 3.1은 네이티브 오디오를 합성할 수 있습니다.
  • 스타일 및 참조 - 포함하다 referenceImages 또는 사진/필름 스타일을 언급하세요: "필름 누아르, 고대비, 코닥 500 느낌".
  • 부정적인 프롬프트 — 당신이 무엇을 지정 하지 원치 않는 결과를 줄이려면 (예: "로고 없음, 텍스트 없음, 만화 스타일 없음")을 선택합니다.

참조 이미지 사용

이미지 가이드 및 첫 번째/마지막 프레임 보간은 Veo 3.1의 기능입니다. 일반적인 고품질 파이프라인은 다음과 같습니다.

  • 이미지 모델(나노 바나나 또는 제미니 이미지 모델)을 통해 1~3개의 참조 이미지로 고정 자산을 생성하거나 개선합니다. 이 이미지 모델은 지속적인 피사체(사람, 제품)의 모양/스타일을 정의합니다. Veo는 참조 자산을 기반으로 피사체의 모양을 효과적으로 보존합니다.
  • 해당 자산을 참조 이미지(또는 첫 번째/마지막 프레임)로 구성합니다.
  • 비디오 생성/보간/확장을 위해 Veo 3.1을 호출합니다.
  • 선택적으로 후처리 (색상 등급, 압축, 수동 편집) 표준 비디오 도구(Premiere, DaVinci Resolve)를 사용합니다.

토큰, 길이 및 해상도 고려 사항

  • Veo 3.1 텍스트 입력에는 토큰 제한(예: 특정 미리보기 변형의 경우 최대 1,024개 토큰)이 있으며, 출력은 일반적으로 짧은 비디오 한 개(예시에서는 8초 분량이 많음)입니다. 간결하고 반복적인 방식으로 작성하세요. 긴 콘텐츠의 경우 생성된 여러 클립을 연결하는 것을 고려하세요.

결론 - Veo 3.1이 제작자와 편집자를 위해 변경하는 사항

Veo 3.1은 단편 오디오 기반 AI 비디오 생성 분야에서 실질적인 도약을 보여줍니다. 단순한 생성기가 아니라, 편집 보조 Flow 및 Gemini Studio와 같은 내부 도구를 사용하면 제작자가 동일한 생성적 기본 요소를 재사용하면서 수술적 편집(객체 삽입/제거, 카메라 재촬영)을 수행할 수 있습니다. 개발자와 포스트 프로덕션 팀에게는 반복적인 접근 방식이 권장됩니다. API를 사용하여 짧은 테이크를 생성하고 확장하고, 연속성을 위해 참조 프레임을 사용하고, 기존 도구를 사용하여 최종 합성 및 오디오 믹싱을 수행합니다.

개발자는 액세스할 수 있습니다 베오 3.1 API제미니 3 프로 이미지(나노 바나나 프로) CometAPI를 통해. 시작하려면 CometAPI의 모델 기능을 살펴보세요. 운동장 상담하다  API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. e티피에이 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !

AI에 대한 더 많은 팁, 가이드 및 뉴스를 알고 싶다면 저희를 팔로우하세요. VKX 및  디스코드!

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인