Google publicznie przedstawiło Wersja 3.1 (i a Veo 3.1 Fast wariant) w połowie października 2025 r. jako ulepszony model przetwarzania tekstu na wideo, który generuje krótkie klipy o wyższej wierności dźwięk natywny, lepsze szybkie przestrzeganie i nowe możliwości edycji, takie jak rozszerzenie sceny/klipu, interpolacja klatka-klatka, obrazowo sterowany generacji (użyj maksymalnie trzech obrazów referencyjnych). Veo 3.1 jest dostępne poprzez API, pojawia się w Gemini aplikacja i Przepływ narzędzie kreatywne, dostępne dla programistów korporacyjnych Wierzchołek AI i Google AI Studio (dostępność różni się w zależności od platformy i planu). Integracja z Flow zapewnia więcej opcji edycji interfejsu użytkownika (oświetlenie/cienie, wstawianie/usuwanie obiektów wkrótce), a interfejsy API udostępniają programistyczne funkcje generowania i rozszerzania dla programistów.
Udostępnię przewodnik, który krok po kroku pokaże, jak edytować filmy za pomocą Veo 3.1 (Flow, CometAPI/Gemini API).
Co robi Veo 3.1 i skąd się wziął?
Veo 3.1 to najnowsza wersja rodziny generatywnych modeli wideo Google (Veo), stworzona z myślą o przekształcaniu podpowiedzi tekstowych – a opcjonalnie również obrazów lub istniejących klatek wideo – w krótkie, spójne, fotorealistyczne lub stylizowane klipy wideo z syntezowanym dźwiękiem (dialogi, dźwięki otoczenia, efekty specjalne). Aktualizacja 3.1 kładzie nacisk lepszy realizm, bogatszy dźwięk natywny, narzędzia zapewniające ciągłość (rozszerzanie scen i interpolacja klatek), co czyni Veo odpowiednikiem modeli tekstowych i graficznych Google zorientowanych na wideo.
Najważniejsze ulepszenia w wersji 3.1 obejmują:
- Natywna synteza dźwięku i dialogów dla generowanych klipów (nie jest potrzebny oddzielny kanał głosowy).
- Interpolacja klatka po klatce (pierwsza i ostatnia klatka steruje generowanym klipem).
- Generowanie wspomagane obrazem (można użyć maksymalnie trzech obrazów referencyjnych, aby zachować spójność charakteru/stylu).
- Rozszerzanie sceny (zachowanie ciągłości poprzez generowanie łączących klipów pochodzących z ostatniej sekundy poprzednich klipów).
- Lepsze przestrzeganie zasad i ulepszone sterowanie kinowe.
Gdzie działa Veo 3.1?
Veo 3.1 jest dostępny w Google API (płatny podgląd), Vertex AI / Model Garden, Aplikacje mobilne/internetowe Geminii zintegrowano z wersjami demonstracyjnymi Flow i Veo Studio. Interfejs API Comet zaczęła również integrować Veo.
Jak edytować filmy za pomocą Veo 3.1 w Flow? Krok po kroku
Poniżej przedstawiam najpopularniejsze przepływy pracy programistycznej i interfejsu użytkownika: edycja w Flow (interfejs użytkownika twórcy), korzystanie z aplikacji Gemini (szybkie generowanie) oraz programowe korzystanie z API Gemini / Vertex AI (do produkcji i automatyzacji).
Jak edytować filmy za pomocą Flow (interfejsu użytkownika twórcy)?
Przepływ to kreatywny interfejs użytkownika Google dla twórców filmów, który integruje modele Veo na potrzeby generacji oraz Zestaw narzędzi do edycji (oświetlenie, cieniowanie, kompozycja sceny, narzędzia do wstawiania/usuwania obiektów). Dzięki Veo 3.1 w Flow możesz:
- Generuj lub regeneruj ujęcia z bogatszym dźwiękiem.
- Użyj opcji „Składniki do wideo” (prześlij obrazy referencyjne, aby zachować spójność postaci/stylu).
- Rozszerzaj sceny lub łącz wiele ujęć za pomocą funkcji Rozszerzanie scen (łączy nowe klipy z zakończeniami poprzednich).
- Zastosuj podstawowe funkcje wstawiania i (wkrótce) usuwania obiektów wewnątrz interfejsu użytkownika.
Jak wykonać podstawową edycję w usłudze Flow (kroki praktyczne)?
- Utwórz/wygeneruj swój klip źródłowy (monit tekstowy lub obrazkowy).
- Użyj osi czasu, aby wybrać koniec klipu i wybierz Rozciągać się (Rozszerzenie sceny) z nowym komunikatem, który pozwala na kontynuację akcji lub dodanie ruchu. Każde rozszerzenie dodaje mały skok, który system łączy, aby zachować ciągłość.
- W przypadku zmian obiektów użyj narzędzia Wstaw (opisz element, który chcesz dodać i gdzie go dodać). Aby usunąć obiekt, skorzystaj z narzędzia Usuń w Flow, jeśli jest dostępne, i zweryfikuj artefakty kompozycji.
- Eksportuj i, jeśli to konieczne, dopracuj w tradycyjnym programie do edycji nieliniowej (Premiere, DaVinci Resolve) w celu uzyskania gradacji kolorów, napisów lub precyzyjnych cięć.
Flow został zaprojektowany tak, aby przyspieszyć iteracyjne, kreatywne edycje; traktuj go jako połączenie edycji osi czasu i generatywnej wymiany.
Jak programowo edytować lub generować filmy za pomocą interfejsu API Veo 3.1
Istnieją dwie podstawowe ścieżki programowe:
- Gemini API (język generatywny / Gemini SDK) — służy do bezpośredniego wywoływania modeli Veo w celu generowania i rozszerzania (przykłady podano w dokumentacji API Gemini firmy Google).
- CometAPI (format OpenAI/czat) — CometAPI oferuje dostęp do Obraz Gemini 3 Pro (Nano Banana Pro),Bliźnięta 3 Pro i ponad 100 modeli sztucznej inteligencji do generowania czatów, obrazów, muzyki i wideo, do których masz dostęp Wersja 3.1 za pośrednictwem czatu w stylu OpenAI.
Edycję w Veo 3.1 można opisać jako kilka odrębnych przepływów. Każdy przepływ łączy dane wejściowe modelu (tekst / obrazy / wideo) z etapem postprodukcji, aby uzyskać rezultaty gotowe do produkcji.
Veo 3.1 jest udostępniane za pośrednictwem interfejsów API. Typowy wzorzec to długotrwały proces generateVideos operacja — publikujesz zadanie, sprawdzasz działanie operacji i pobierasz plik wyjściowy po jej zakończeniu.
Poniżej znajdują się uproszczone, gotowe do uruchomienia przykłady — dostosuj je do swoich kluczy API i środowiska. Zapoznaj się z zestawem SDK swojego środowiska oraz wskazówkami dotyczącymi uwierzytelniania.
Przykład JavaScript (Node) — generowanie i sondowanie
Przykład opiera się na wykorzystaniu stylu API Gemini.
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
const prompt = "A cinematic shot of a majestic lion in the savannah. Add ambient wind and distant bird calls.";
let operation = await ai.models.generateVideos({
model: "veo-3.1-generate-preview",
prompt,
});
// Poll
while (!operation.done) {
console.log("Waiting...");
await new Promise(r => setTimeout(r, 10000));
operation = await ai.operations.getVideosOperation({ operation: operation });
}
// Download and save the generated video from operation.response.generated_videos
Ten wzorzec (prześlij → ankieta → pobierz) jest kanoniczną metodą w dokumentacji Gemini.
Czy mogę używać curl/REST zamiast Python SDK?
Tak — oficjalny pakiet SDK dla stron internetowych, ale bazowy kod Veo 3.1 można używać za pośrednictwem REST. Implementacje różnią się w zależności od środowiska (Gemini API vs. CometAPI REST). Jeśli wolisz curl, upewnij się, że stosujesz prawidłowe uwierzytelnianie (tokeny z Google Cloud lub klucz CometAPI) i użyj punktu końcowego do generowania wideo specyficznego dla Twojego produktu. Przykład pseudo-curla dla CometAPI (dostosuj do uwierzytelniania i punktu końcowego):
curl "https://api.cometapi.com/v1/chat/completions" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "veo-3.1",
"prompt": "A simple prompt describing the action",
"config": {"aspect_ratio":"16:9","length_seconds":8}
}' --output generated_response.json
Ważny:dokładny adres URL REST i struktura danych zależą od tego, czy używasz API Gemini or Interfejs API Comet Punkty końcowe — zapoznaj się z dokumentacją produktu przed wysłaniem żądań. Zestawy SDK obsługują wiele szczegółów uwierzytelniania i sondowania za Ciebie.
Jak korzystać z Veo 3.1 — jakie przepływy pracy są obsługiwane?
Poniżej omówię praktyczne przepływy, z których będziesz korzystać podczas edycji w Veo 3.1: przepływy UX (Flow/Gemini Studio) oraz przepływy programowe (Gemini API/Vertex API). Dla każdego przepływu pokażę przykłady, zastrzeżenia i krótkie fragmenty kodu, które możesz skopiować.
Edycję w Veo 3.1 można opisać jako kilka odrębnych przepływów. Każdy przepływ łączy dane wejściowe modelu (tekst / obrazy / wideo) z etapem postprodukcji, aby uzyskać rezultaty gotowe do produkcji.
Główne przepływy pracy edycyjne
Istnieją trzy praktyczne procesy edycyjne, z których będziesz często korzystać:
- Edycje i ponowne generacje sterowane tekstem — zmień ujęcie, przepisując podpowiedź lub stosując nowe instrukcje do tej samej sceny.
- Edycja z wykorzystaniem obrazu referencyjnego („Składniki wideo”) — dostarczasz maksymalnie 3 obrazy, aby zachować postać lub obiekt w generowanych klatkach.
- Interpolacja klatek (pierwsza i ostatnia klatka) — podaje obraz początkowy i końcowy, a Veo generuje sekwencję przejściową między nimi (z dźwiękiem, jeśli jest to wymagane).
- Rozszerzenie sceny — rozszerz istniejący klip wygenerowany przez Veo (lub inny) poprzez wygenerowanie łączącego klipu, który jest kontynuacją ostatniej sekundy poprzedniego klipu.
- Wstawianie/usuwanie obiektów i inne narzędzia do edycji przepływu — niektóre funkcje interfejsu użytkownika Flow (wstawianie/usuwanie obiektów, podpowiedzi dotyczące rysunków, zmiany kąta kamery) są dodawane na bazie możliwości Veo i mogą pomóc w retuszu na poziomie klatek w interfejsie GUI.
Uwagi i wskazówki: użyj odpowiedniego uwierzytelniania (klucza API Gemini / klucza API CometAPI). W przykładzie użyto veo-3.1-generate-preview — identyfikatory modeli i nazwy parametrów mogą się nieznacznie różnić w zależności od wersji SDK i regionu; identyfikatory modelu veo 3.1 dla CometAPI to veo3.1-pro i veo3.1.
1) Tekst → Wideo (nowa generacja)
Przypadek użycia: Utwórz nowy krótki klip na podstawie scenariusza lub kreatywnego tematu.
Pływ:
- Przygotuj czytelny tekst zawierający opis sceny, wskazówki kamery i wskazówki dźwiękowe (dialogi lub efekty dźwiękowe).
- Zadzwoń do Bliźniąt generuj filmy punkt końcowy przy użyciu modelu Veo 3.1.
- Monitoruj długotrwałą operację, aż generowanie się zakończy, pobierz wynikowy plik MP4, a następnie przejrzyj i powtórz.
Prosty przykład w Pythonie (tekst → wideo):
Użyj oficjalnego Google genialne Klient dla Pythona. Ten fragment kodu demonstruje generowanie krótkiego filmu z poziomu wiersza poleceń za pomocą Veo 3.1.
# Requires google-genai Python client configured with credentials
import time
from google import genai
client = genai.Client()
prompt = """A cinematic close-up of a detective in a rainy alley, neon reflections on puddles.
He whispers, 'This is the clue we've been missing.' Add distant thunder and footsteps."""
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
)
# Poll until done
while not operation.done:
print("Waiting for generation...")
time.sleep(8)
operation = client.operations.get(operation)
# Save video
generated = operation.response.generated_videos
client.files.download(file=generated.video)
generated.video.save("text_to_video.mp4")
print("Saved text_to_video.mp4")
2) Obraz → Wideo (animacja obrazu źródłowego)
Przypadek użycia: Zamień ujęcie produktu, portret postaci lub pojedyncze zdjęcie w krótki klip.
Pływ:
- Utwórz lub wybierz obraz początkowy (może zostać wygenerowany przez model obrazu, np. Nano Banana).
- Prześlij obraz jako
imageparametr i wywołaniegenerate_videos, opcjonalnie dostarczającreferenceImageslublastFramedo interpolacji. - Pobierz i przejrzyj; powtórz monity lub zasoby graficzne.
Fragment obrazu Pythona→wideo (obraz wygenerowany osobno):
Jedną z najbardziej praktycznych funkcji Veo 3.1 jest obrazy referencyjne:dostarcz do 3 obrazów (osoby, produktu, obiektu), aby wygenerowany film zachował ten wygląd we wszystkich klatkach.
# Python: use reference images with Veo 3.1
from google import genai
from google.genai import types
client = genai.Client()
prompt = "A product demo shot: the smartwatch rotates, displaying the UI and a glowing notification tone."
# reference_image_* can be binary content or file references depending on the SDK
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt=prompt,
config=types.GenerateVideosConfig(
reference_images=, # up to 3
aspect_ratio="16:9",
length_seconds=8
),
)
# handle operation result and download as earlier example
Praktyczne wskazówki:
- Wybierz wyraźne, dobrze oświetlone zdjęcia referencyjne, które pokażą obiekt pod użytecznym kątem.
- Stosuj odniesienia, aby zachować tożsamość produktu, ubioru lub twarzy postaci w sekwencjach składających się z wielu ujęć.
- Unikaj zdjęć objętych prawem autorskim lub należących do osób prywatnych bez ich pozwolenia.
3) Wideo do wideo / rozszerzenie (kontynuacja lub ponowne nagranie)
Przypadek użycia: Rozszerz istniejący wygenerowany klip lub kontynuuj akcję po jej zakończeniu albo użyj wcześniej wygenerowanego wideo jako bazy do ponownej edycji.
Pływ:
- Podaj wygenerowany film jako
videowprowadź i stwórz podpowiedź opisującą, jak film powinien być kontynuowany (np. „Rozszerzenie: bohater otwiera drzwi i wchodzi w światło”). - Użyj trybu rozszerzenia — Veo 3.1 finalizuje ostatnią sekundę i kontynuuje ruch. Uwaga: rozszerzenie głosu jest mniej niezawodne, jeśli w ostatniej sekundzie nie ma dźwięku.
Przykład w Pythonie (rozszerzenie istniejącego filmu):
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
video=previous_generated_video, # a Video object from previous generation
prompt="Extend: The paraglider slowly descends and lands by a meadow.",
config=types.GenerateVideosConfig(number_of_videos=1, resolution="720p")
)
# Poll and download...
Notatka dotycząca przepływu pracy:wielokrotnie wydłużaj klipy (łącząc każdy nowy wygenerowany klip z końcem poprzedniego), aby budować dłuższe sekwencje. Pamiętaj o akumulacji artefaktów – okresowo ponownie zakotwiczaj w wysokiej jakości układach odniesienia lub ponownie generuj sekcje, aby zachować wierność.
4) Edycja poszczególnych klatek (pierwsza i ostatnia klatka, obrazy referencyjne)
Można wyprodukować film, w którym przejście między klatką początkową a klatką końcową następuje poprzez wygenerowanie najpierw obrazu (np. za pomocą modelu obrazu Gemini), a następnie przekazanie tego obrazu jako image i ustawienie last_frame w konfiguracji w celu sterowania interpolacją.
Przypadek użycia: Chcesz uzyskać ścisłą ciągłość wizualną lub animację pomiędzy dwiema określonymi klatkami.
Pływ:
- Wygeneruj lub prześlij pierwszą i ostatnią klatkę.
- Zadzwoń do Veo 3.1 z
image=first_frameorazconfig.last_frame=last_frame. - Model dokonuje interpolacji między tymi klatkami, generując wiarygodny ruch i dźwięk, odpowiadający Twojemu komunikatowi.
Dlaczego to ma znaczenie: Aby zapewnić kontrolę kreatywną, pierwsza/ostatnia klatka pozwala dokładnie określić kadrowanie i kompozycję kamery na początku/końcu, co jest niezbędne w przypadku efektów wizualnych, ciągłości lub elementów narracji.
Python (obraz → wideo)
# Step 1: make an image (using a Gemini image model)
image_resp = client.models.generate_content(
model="gemini-2.5-flash-image",
contents="A stylized watercolor painting of a fox in a moonlit forest",
config={"response_modalities": }
)
first_image = image_resp.parts.as_image()
# Step 2: use the image as the first_frame and specify a last_frame image (optional)
operation = client.models.generate_videos(
model="veo-3.1-generate-preview",
prompt="Transition to a fox bounding across snow toward the camera.",
image=first_image,
config={"last_frame": some_last_image, "number_of_videos": 1}
)
# Poll and download as before...
Dzięki temu można płynnie interpolować dwa zdefiniowane punkty kontrolne wizualne.
Jakie strategie wprowadzania i podpowiedzi sprawdzają się najlepiej w przypadku Veo 3.1?
Veo 3.1 najlepiej reaguje na ustrukturyzowane podpowiedzi, które jasno opisują kompozycję wizualną, ruch, dźwięk i nastrój emocjonalny. „Przewodnik po podpowiedziach” Google dla Veo 3.1 zaleca konkretne składniki; oto skrócona lista kontrolna:
Szybka anatomia (zalecane)
- Scena główna — zdanie zwięzłe: kto/co, czynność podstawowa.
- Opis kamery — zbliżenie / szeroki plan / ujęcie z wózka / stabilne / z ręki, ruch kamery i kadrowanie.
- Czas i tempo — krótkie wskazówki, takie jak „powoli”, „kinowe wrażenie 24 klatek na sekundę” lub liczba klatek, jeśli potrzebujesz precyzji.
- Wskazówki dźwiękowe — określ tło, konkretne efekty dźwiękowe lub dialogi (w cudzysłowie). Veo 3.1 potrafi syntezować dźwięk natywny.
- Styl i odniesienia - włączać
referenceImageslub wspomnieć o stylach fotograficznych/filmowych: „film noir, wysoki kontrast, styl Kodak 500”. - Negatywne monity — określ, co nie chcesz (np. „bez logo, bez tekstu, bez stylu kreskówkowego”) ograniczyć niepożądane rezultaty.
Korzystanie z obrazów referencyjnych
Naprowadzanie obrazu i interpolacja pierwszej/ostatniej klatki to funkcje Veo 3.1. Typowy, wysokiej jakości potok to:
- Generuj lub dopracowuj nieruchome zasoby z 1–3 obrazami referencyjnymi za pomocą modelu obrazu (modele obrazu Nano Banana lub Gemini), które definiują wygląd/styl stałych obiektów (ludzi, produktów). Veo dobrze zachowuje wygląd obiektów, gdy jest oparty na zasobach referencyjnych.
- Ułóż te zasoby w obrazy referencyjne (lub pierwszą/ostatnią klatkę).
- Wywołaj Veo 3.1 do generowania/interpolacji/rozszerzania wideo.
- Opcjonalnie postprodukcja (gradacja kolorów, kompresja, edycja ręczna) przy użyciu standardowych narzędzi wideo (Premiere, DaVinci Resolve).
Rozważania dotyczące tokenów, długości i rozdzielczości
- Wprowadzanie tekstu w Veo 3.1 ma limit tokenów (np. ~1,024 tokeny dla niektórych wersji podglądu), a wynik to zazwyczaj jeden krótki film (przykłady często pokazują 8 sekund); bądź zwięzły i iteracyjny. Zaplanuj łączenie wielu wygenerowanych klipów, aby uzyskać dłuższe treści.
Podsumowanie — co Veo 3.1 zmienia dla twórców i redaktorów
Veo 3.1 to praktyczny krok naprzód w generowaniu krótkich filmów wideo z dźwiękiem w oparciu o sztuczną inteligencję. To nie tylko generator: staje się asystent edycji w narzędziach takich jak Flow i Gemini Studio, które pozwalają twórcom na precyzyjne edycje (wstawianie/usuwanie obiektów, ponowne ujęcia kamery) przy jednoczesnym wykorzystaniu tych samych prymitywów generatywnych. Dla deweloperów i zespołów postprodukcyjnych zalecane jest podejście iteracyjne: wykorzystanie API do generowania i rozszerzania krótkich ujęć, wykorzystanie ramek referencyjnych dla zapewnienia ciągłości oraz wykonanie ostatecznej kompozycji i miksowania dźwięku za pomocą tradycyjnych narzędzi.
Deweloperzy mogą uzyskać dostęp Interfejs API Veo 3.1 oraz Obraz Gemini 3 Pro (Nano Banana Pro) poprzez CometAPI. Na początek zapoznaj się z możliwościami modelowania CometAPI w Plac zabaw i skonsultuj się Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. ZetAPI zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.
Gotowy do drogi?→ Zarejestruj się w CometAPI już dziś !
Jeśli chcesz poznać więcej wskazówek, poradników i nowości na temat sztucznej inteligencji, obserwuj nas na VK, X oraz Discord!
