Cómo editar vídeos a través de Veo 3.1

CometAPI
annaDec 2, 2025
Cómo editar vídeos a través de Veo 3.1

Google presentó públicamente Veo 3.1 (y un Veo 3.1 Fast variante) a mediados de octubre de 2025 como un modelo mejorado de texto a video que produce clips cortos de mayor fidelidad con audio nativo, mejor adherencia inmediata y nuevas capacidades de edición como extensión de escena/clip, interpolación de fotograma a fotograma e guiada por imágenes Generación (use hasta tres imágenes de referencia). Veo 3.1 está disponible a través de API, aparece en el Gemini aplicación y Flow herramienta creativa y está expuesta a los desarrolladores empresariales a través de IA de vértice y Google AI Studio (la disponibilidad varía según la plataforma y el plan). La integración de Flow ofrece más controles de edición de la interfaz de usuario (próximamente, iluminación/sombras e inserción/eliminación de objetos), mientras que las API ofrecen funciones de generación programática y extensión para desarrolladores.

Proporcionaré una guía sobre cómo editar videos a través de Veo 3.1 (Flow, CometAPI/Gemini API — paso a paso).

¿Qué hace Veo 3.1 y de dónde proviene?

Veo 3.1 es la última versión de la familia de modelos de vídeo generativo de Google (Veo), diseñada para convertir indicaciones de texto (y opcionalmente imágenes o fotogramas de vídeo existentes) en videoclips cortos, coherentes, fotorrealistas o estilizados con audio sintetizado (diálogos, sonidos ambientales, efectos especiales). La actualización 3.1 enfatiza mejor realismo, audio nativo más rico e herramientas para la continuidad (extensión de escena e interpolación de cuadros), posicionando a Veo como una contraparte centrada en video para los modelos de texto e imagen de Google.

Las actualizaciones clave en 3.1 incluyen:

  • Síntesis de audio y diálogo nativos para clips generados (no se necesita una canalización de voz separada).
  • Interpolación de cuadro a cuadro (el primer y el último cuadro controlan un clip generado).
  • Generación guiada por imágenes (utilice hasta tres imágenes de referencia para mantener la coherencia del carácter y el estilo).
  • Extensión de escena (preserva la continuidad generando clips de conexión generados a partir del último segundo de los clips anteriores).
  • Mejor adherencia inmediata y controles cinematográficos mejorados.

¿Dónde se ejecuta Veo 3.1?

Veo 3.1 está disponible en Google API (vista previa pagada), Vertex AI / Jardín modelo, Aplicaciones móviles/web de Gemini, e integrado en las demostraciones de Flow y Veo Studio. CometAPI también ha comenzado a integrar Veo.

¿Cómo puedo editar vídeos con Veo 3.1 en Flow? Paso a paso.

A continuación, repasaré los flujos de trabajo de UI y programáticos más comunes: edición en Flow (UI del creador), uso de la aplicación Gemini (generación rápida) y uso de la API de Gemini/Vertex AI de manera programática (para producción y automatización).

¿Cómo edito videos usando Flow (la interfaz del creador)?

Flow es la interfaz creativa de Google para cineastas/creadores que integra modelos Veo para la generación y Un conjunto de controles de edición (iluminación, sombreado, composición de escenas, herramientas de inserción/eliminación de objetos). Con Veo 3.1 en Flow, puedes:

  • Genere o regenere tomas con audio más enriquecido.
  • Utilice “Ingredientes para video” (cargue imágenes de referencia para personajes/estilos consistentes).
  • Amplíe escenas o encadene múltiples tomas con Extensión de escena (conecta nuevos clips con finales de clips anteriores).
  • Aplicar inserción básica de objetos y (próximamente) eliminación dentro de la interfaz de usuario.

¿Cómo realizo una edición básica en Flow (pasos prácticos)?

  1. Crea/genera tu clip semilla (indicación de texto o indicación de imagen).
  2. Utilice la línea de tiempo para seleccionar el final del clip y elija ampliar (Extensión de escena) con un nuevo mensaje para continuar la acción o añadir movimiento. Cada extensión añade un pequeño salto que el sistema integra para preservar la continuidad.
  3. Para modificar objetos, utilice la herramienta Insertar (describe el elemento que se va a añadir y dónde se va a colocar). Para eliminarlos, utilice la herramienta Eliminar de Flow cuando esté disponible y verifique los artefactos de composición.
  4. Exporte y, si es necesario, pula en un NLE tradicional (Premiere, DaVinci Resolve) para gradación de color, subtítulos o cortes precisos.
    Flow está diseñado para realizar ediciones creativas iterativas rápidamente; trátelo como un híbrido entre la edición de la línea de tiempo y los reemplazos generativos.

¿Cómo edito o genero vídeos programáticamente a través de la API de Veo 3.1?

Hay dos rutas programáticas principales:

  • API de Gemini (lenguaje generativo / SDK de Gemini) — se utiliza para llamar a modelos Veo directamente para generación y extensión (ejemplos proporcionados en los documentos de la API de Gemini de Google).
  • CometAPI (formato OpenAI/chat): CometAPI ofrece acceso a Imagen de Gemini 3 Pro (Nano Banana Pro),Géminis 3 Pro , y más de 100 modelos de IA para la generación de chat, imágenes, música y videos, puedes acceder Veo 3.1 a través del punto de chat estilo OpenAI.

La edición con Veo 3.1 se puede considerar como varios flujos distintos. Cada flujo combina entradas del modelo (texto, imágenes y vídeo) y un paso de posprocesamiento para obtener resultados listos para producción.

Veo 3.1 se expone a través de las API. El patrón típico es una ejecución prolongada. generateVideos Operación: publica el trabajo, sondea la operación y descarga el archivo de salida una vez finalizada.

A continuación se muestran ejemplos simplificados y ejecutables: adáptelos a sus claves API y entorno; consulte el SDK de su entorno y la guía de autenticación.

Ejemplo de JavaScript (Node): generar y sondear

El ejemplo se basa en el uso del estilo API de Gemini.

import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});

const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
  model: "veo-3.1-generate-preview",
  prompt,
});

// Poll
while (!operation.done) {
  console.log("Waiting...");
  await new Promise(r => setTimeout(r, 10000));
  operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos

Este patrón (enviar → encuesta → descargar) es el método canónico en la documentación de Gemini.

¿Puedo usar curl/REST en lugar del SDK de Python?

Sí, la web oficial muestra el SDK, pero la versión subyacente de Veo 3.1 se puede usar mediante REST. Las implementaciones varían según el entorno (Gemini API vs. CometAPI REST). Si prefiere curl, asegúrese de usar la autenticación correcta (tokens de portador de Google Cloud o clave cometAPIAPI) y use el punto de conexión específico para su producto para la generación de video. Ejemplo de pseudocurl de CometAPI (adaptado a su autenticación y punto de conexión):

curl "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "veo-3.1",
    "prompt": "A simple prompt describing the action",
    "config": {"aspect_ratio":"16:9","length_seconds":8}
  }' --output generated_response.json

Importante::la URL REST exacta y la estructura de carga útil dependen de si utiliza el API de Géminis or CometAPI Puntos finales: consulte la documentación del producto antes de enviar solicitudes. Los SDK gestionan muchos detalles de autenticación y sondeo.

Cómo utilizar Veo 3.1: ¿Qué flujos de trabajo son compatibles?

A continuación, explicaré los flujos prácticos que usarás al editar con Veo 3.1: los flujos de UX (Flow/Gemini Studio) y los flujos programáticos (Gemini API/Vertex API). Para cada flujo, mostraré ejemplos, advertencias y pequeños fragmentos de código que puedes copiar.

La edición con Veo 3.1 se puede considerar como varios flujos distintos. Cada flujo combina entradas del modelo (texto, imágenes y vídeo) y un paso de posprocesamiento para obtener resultados listos para producción.

Flujos de trabajo de edición principales

Hay tres flujos de edición prácticos que utilizarás con frecuencia:

  1. Ediciones y regeneraciones basadas en texto — cambiar una toma reescribiendo el mensaje o aplicando nuevas instrucciones a la misma escena.
  2. Edición guiada por imágenes de referencia (“Ingredientes del video”): puedes proporcionar hasta 3 imágenes para preservar un personaje u objeto en los cuadros generados.
  3. Interpolación de fotogramas (primer y último fotograma) — proporciona una imagen de inicio y una de fin y Veo genera la secuencia de transición entre ellas (con audio si se solicita).
  4. Extensión de escena — ampliar un clip existente generado por Veo (u otro) generando un clip de conexión que continúa desde el último segundo del clip anterior.
  5. Inserción/eliminación de objetos y otras herramientas de edición de flujo —Se están agregando algunas funciones de Flow UI (inserción/eliminación de objetos, indicaciones para hacer garabatos, nuevas tomas desde el ángulo de la cámara) a las capacidades de Veo y pueden ayudar con el retoque a nivel de cuadro en una GUI.

Notas y consejos: Utilice la autenticación adecuada (clave API de Gemini/clave API de CometAPI). El ejemplo utiliza veo-3.1-generate-preview; los ID de modelo y los nombres de los parámetros pueden variar ligeramente según la versión y la región del SDK. Los ID de modelo de Veo 3.1 de CometAPI son veo3.1-pro y veo3.1.

1) Texto → Vídeo (nueva generación)

Caso de uso: Crea un clip corto nuevo a partir de un guión o una indicación creativa.

Fluir:

  1. Prepare un texto claro que incluya una descripción de la escena, la dirección de la cámara y señales de audio (diálogos o efectos de sonido).
  2. Llama a los Géminis generarVideos punto final que utiliza el modelo Veo 3.1.
  3. Sondee la operación de larga ejecución hasta que finalice la generación, descargue el MP4 resultante y luego revíselo e itérelo.

Ejemplo simple de Python (texto → video):

Utilice el Google oficial Génai Cliente para Python. Este fragmento muestra cómo generar un video corto a partir de un mensaje con Veo 3.1.

# Requires google-genai Python client configured with credentials

import time
from google import genai

client = genai.Client()

prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
)

# Poll until done

while not operation.done:
    print("Waiting for generation...")
    time.sleep(8)
    operation = client.operations.get(operation)

# Save video

generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")

2) Imagen → Vídeo (animar una imagen fuente)

Caso de uso: Anime una toma de producto, un retrato de personaje o una sola fotografía en un clip corto.

Fluir:

  1. Produce o selecciona una imagen inicial (puede ser generada por un modelo de imagen como Nano Banana).
  2. Sube la imagen como image parámetro y llamada generate_videos, suministrando opcionalmente referenceImages o lastFrame para interpolación.
  3. Recuperar y revisar; iterar indicaciones o recursos de imágenes.

Fragmento de imagen→video de Python (imagen generada por separado):

Una de las características más prácticas de Veo 3.1 es imágenes de referencia:Proporcione hasta 3 imágenes (una persona, un producto, un objeto) para que el video generado conserve esa apariencia en todos los cuadros.

# Python: use reference images with Veo 3.1

from google import genai
from google.genai import types
client = genai.Client()

prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."

# reference_image_* can be binary content or file references depending on the SDK

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt,
    config=types.GenerateVideosConfig(
        reference_images=,  # up to 3

        aspect_ratio="16:9",
        length_seconds=8
    ),
)

# handle operation result and download as earlier example

Consejos prácticos:

  • Prefiera imágenes de referencia claras y bien iluminadas que capturen al sujeto desde ángulos útiles.
  • Utilice referencias para mantener la identidad del producto, la ropa o el rostro de un personaje en secuencias de múltiples tomas.
  • Evite imágenes con derechos de autor o de personas privadas sin permiso.

3) Vídeo a vídeo / Extensión (continuar o volver a grabar)

Caso de uso: Amplíe un clip generado existente o continúe una acción más allá de su final, o utilice un video generado previamente como base para volver a editarlo.

Fluir:

  1. Proporciona el vídeo generado como video Ingrese y elabore una indicación que describa cómo debe continuar el video (por ejemplo, “Extender: el protagonista abre la puerta y camina hacia la luz”).
  2. Usar el modo de extensión: Veo 3.1 finaliza el último segundo y continúa la animación. Nota: La extensión de voz es menos fiable a menos que haya audio en el último segundo.

Ejemplo de Python (ampliar vídeo existente):

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    video=previous_generated_video,  # a Video object from previous generation

    prompt="Extend: The paraglider slowly descends and lands by a meadow.",
    config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...

Nota de flujo de trabajoExtienda clips repetidamente (uniendo cada clip generado al final del anterior) para crear secuencias más largas. Tenga en cuenta la acumulación de artefactos: vuelva a conectarlos periódicamente a fotogramas de referencia de alta calidad o regenere secciones para preservar la fidelidad.


4) Edición específica de fotogramas (primero y último fotograma, imágenes de referencia)

Puede producir un video que haga la transición desde un cuadro de inicio a un cuadro final generando primero una imagen (por ejemplo, con un modelo de imagen Gemini), luego pasando esa imagen como imagen y configurando last_frame en la configuración para impulsar la interpolación.

Caso de uso: Desea una continuidad visual estrecha o animar entre dos cuadros específicos.

Fluir:

  1. Generar o cargar un primer fotograma y un último fotograma.
  2. Llama a Veo 3.1 con image=first_frame y config.last_frame=last_frame.
  3. El modelo interpola entre esos cuadros, produciendo un movimiento y un audio plausibles que coinciden con el mensaje.

Por qué esto importa: Para el control creativo, el primer/último cuadro le permite definir el encuadre de la cámara y la composición exactamente para el inicio/fin, lo cual es esencial para los efectos visuales, la continuidad o los ritmos narrativos.

Python (imagen → vídeo)

# Step 1: make an image (using a Gemini image model)

image_resp = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents="A stylized watercolor painting of a fox in a moonlit forest",
    config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Transition to a fox bounding across snow toward the camera.",
    image=first_image,
    config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...

Esto le proporciona una interpolación suave entre dos anclajes visuales definidos.

¿Qué estrategias de indicaciones y entrada funcionan mejor con Veo 3.1?

Veo 3.1 responde mejor a indicaciones estructuradas que describen claramente la composición visual, el movimiento, el sonido y el tono emocional. La guía de indicaciones de Google para Veo 3.1 recomienda ingredientes específicos; aquí tienes una lista resumida:

Anatomía rápida (recomendada)

  • Escena primaria — oración concisa: quién/qué, acción primaria.
  • Descripción de la cámara — primer plano / gran angular / dolly / estable / cámara en mano, movimiento de cámara y encuadre.
  • Tiempo y ritmo — señales cortas como "lentamente", "sensación cinematográfica de 24 fps" o recuentos de cuadros si necesitas precisión.
  • Señales de audio — Especificar ambiente de fondo, efectos de sonido específicos o diálogos (entre comillas). Veo 3.1 puede sintetizar audio nativo.
  • Estilo y referencias - incluir referenceImages o mencionar estilos fotográficos/cinematográficos: “cine negro, alto contraste, sensación Kodak 500”.
  • Indicaciones negativas — especifica lo que quieres no desea (por ejemplo, “sin logotipos, sin texto, sin estilo de dibujos animados”) para reducir resultados no deseados.

Usando imágenes de referencia

La guía de imágenes y la interpolación del primer/último fotograma son funciones de Veo 3.1. Una secuencia común de alta calidad es:

  • Genere o refine recursos estáticos con 1 a 3 imágenes de referencia mediante modelos de imagen (modelos Nano Banana o Gemini) que definen la apariencia y el estilo de sujetos persistentes (personas, productos). Veo conserva bien la apariencia del sujeto al usar recursos de referencia.
  • Componga esos activos en imágenes de referencia (o los primeros/últimos fotogramas).
  • Llame a Veo 3.1 para generación/interpolación/extensión de vídeo.
  • Opcionalmente, posprocesamiento (graduación de color, compresión, edición manual) con herramientas de vídeo estándar (Premiere, DaVinci Resolve).

Consideraciones sobre tokens, longitud y resolución

  • Las entradas de texto de Veo 3.1 tienen límites de tokens (p. ej., ~1,024 tokens para ciertas variantes de vista previa) y el resultado suele ser un video corto (los ejemplos suelen mostrar 8 segundos); sea conciso e iterativo. Planifique unir varios clips generados para contenido más extenso.

Conclusión: qué cambios trae Veo 3.1 para creadores y editores

Veo 3.1 representa un avance práctico en la generación de videos de IA de formato corto y con audio nativo. No es solo un generador: se está convirtiendo en un... asistente de edición Dentro de herramientas como Flow y Gemini Studio, que permiten a los creadores realizar ediciones precisas (insertar/eliminar objetos, repetir tomas) mientras reutilizan las mismas primitivas generativas. Para desarrolladores y equipos de postproducción, el enfoque recomendado es iterativo: usar la API para generar y extender tomas cortas, usar fotogramas de referencia para la continuidad y realizar la composición final y la mezcla de audio con herramientas tradicionales.

Los desarrolladores pueden acceder API de Veo 3.1 y Imagen de Gemini 3 Pro (Nano Banana Pro) a través de CometAPI. Para comenzar, explore las capacidades del modelo de CometAPI en el Playground y consultar  Guía de API Para obtener instrucciones detalladas, consulte la sección "Antes de acceder, asegúrese de haber iniciado sesión en CometAPI y de haber obtenido la clave API". ComoeAPI Ofrecemos un precio muy inferior al oficial para ayudarte a integrarte.

¿Listo para ir?→ Regístrate en CometAPI hoy !

Si quieres conocer más consejos, guías y novedades sobre IA síguenos en VKX  y  Discord!

Leer Más

500+ Modelos en Una API

Hasta 20% de Descuento