GPT-4o Lyd-API

CometAPI
annaJun 11, 2025
GPT-4o Lyd-API

GPT-4o lyd-API: En samlet /chat/completions endpoint-udvidelse, der accepterer Opus-kodet lyd (og tekst) input og returnerer syntetiseret tale eller transskriptioner med konfigurerbare parametre (model=gpt-4o-audio-preview-<date>, speed, temperature) til batch- og streaming-stemmeinteraktioner.

Grundlæggende information om GPT-4o Audio

GPT-4o lydforhåndsvisning (gpt-4o-audio-preview-2025-06-03) er OpenAIs nyeste talecentreret stor sprogmodel gjort tilgængelig via standarden Chat Completions API snarere end realtidskanalen med ultralav latenstid. Bygget på det samme "omni"-fundament som GPT-4o, er denne variant specialiseret i højkvalitets taleinput og -output til turbaserede samtaler, indholdsoprettelse, tilgængelighedsværktøjer og agentiske arbejdsgange, der ikke kræver millisekundtiming. Den arver alle tekstræsonnementsstyrker fra GPT-4-klassemodeller, samtidig med at den tilføjer end-to-end tale-til-tale (S2S) rørledninger, deterministiske funktionskald, og den nye speed parameter til kontrol af stemmehastighed.


Kernefunktionssæt i GPT-4o Audio

Samlet tale-til-tale-behandling – Lyd transformeres direkte til semantisk rige tokens, bearbejdes og syntetiseres igen uden eksterne STT/TTS-tjenester, hvilket giver konsistent stemmeklang, prosodi og kontekstbevarelse.
Forbedret instruktionsfølelse – Levering af tuning i juni 2025 +19 point bestået ved 1. klasse på stemmekommandoopgaver i forhold til GPT-2024o-grundlinjen fra maj 4, hvilket reducerer hallucinationer inden for områder som kundesupport og udarbejdelse af indhold.
Stabil værktøjsopkald – Modeloutputtene struktureret JSON der overholder OpenAI-funktionskaldsskemaet, hvilket muliggør udløsning af backend-API'er (søgning, booking, betalinger) med >95 % argumentnøjagtighed.
speed Parameter (0.25–4×) – Udviklere kan modulere taleafspilning til langsomt læringstempo, normal fortælling eller hurtig "hørbar skimming"-tilstande, uden resyntetisering af tekst eksternt.
Afbrydelsesbevidst turtagning – Selvom den ikke er lige så latenstidsdrevet som Realtime-varianten, understøtter forhåndsvisningen delvis streamingTokens udsendes, så snart de er beregnet, hvilket giver brugerne mulighed for at afbryde tidligt, hvis det er nødvendigt.


Teknisk arkitektur af GPT-4o

• Enkeltstabeltransformer – Ligesom alle GPT-4o-derivater anvender lydforhåndsvisningen en samlet encoder-dekoder hvor tekst og akustiske tokens passerer gennem identiske opmærksomhedsblokke, hvilket fremmer tværmodal jordforbindelse.
• Hierarkisk lydtokenisering – Rå 16 kHz PCM → log-mel patches → grove akustiske kodersemantiske tokensDenne flertrinskompression opnår 40–50× båndbreddereduktion samtidig med at nuancer bevares, hvilket muliggør klip på flere minutter pr. kontekstvindue.
• NF4 kvantiserede vægte – Konklusionen afgives kl. 4-bit Normal-Float præcision, halvering af GPU-hukommelse sammenlignet med fp16 og opretholdelse 70+ streaming RTF (realtidsfaktor) på A100-80 GB-noder.
• Streamingopmærksomhed og KV-caching – Roterende indlejringer med glidende vinduer opretholder kontekst i over ~30 sekunders tale, samtidig med at de bevarer O(L) hukommelsesforbrug, ideelt til podcast-editorer eller læsehjælpemidler.


Versionsstyring og navngivning — Forhåndsvisning af spor med datostemplede builds

IdentifierKanalFormålSlip DatoStabilitet
gpt-4o-lyd-forhåndsvisning-2025-06-03Chat Completions APITurbaserede lydinteraktioner, agentopgaverJuni 03 2025Eksempel (feedback er velkommen)

Nøgleelementer i navnet:

  1. gpt-4o – Omni multimodal familie.
  2. lyd – Optimeret til talebrug.
  3. forhåndsvisning – API-kontrakten kan udvikle sig; ikke GA endnu.
  4. 2025-06-03 – Øjebliksbillede af træning og implementering for reproducerbarhed.

Sådan kalder du GPT-4o Audio API API fra CometAPI

GPT-4o Audio API API-priser i CometAPI:

  • Input-tokens: $2 / M-tokens
  • Output-tokens: $8 / M-tokens

Påkrævede trin

  • Log ind på cometapi.com. Hvis du ikke er vores bruger endnu, bedes du registrere dig først
  • Få adgangslegitimations-API-nøglen til grænsefladen. Klik på "Tilføj token" ved API-tokenet i det personlige center, få token-nøglen: sk-xxxxx og send.
  • Hent url'en til dette websted: https://api.cometapi.com/

Brugsmetoder

  1. Vælg "gpt-4o-audio-preview-2025-06-03"slutpunkt" til at sende anmodningen og angive anmodningsteksten. Anmodningsmetoden og anmodningsteksten er hentet fra vores hjemmesides API-dokumentation. Vores hjemmeside tilbyder også Apifox-tests for din bekvemmelighed.
  2. Erstatte med din faktiske CometAPI-nøgle fra din konto.
  3. Indsæt dit spørgsmål eller din anmodning i indholdsfeltet – det er det, modellen vil reagere på.
  4. . Behandle API-svaret for at få det genererede svar.

For information om modeladgang i Comet API, se venligst API-dok.

For modelprisoplysninger i Comet API, se venligst https://api.cometapi.com/pricing.

API-arbejdsgang — Chat-fuldførelser med lyddele og funktionskroge

  1. Input Format - audio/* MIME eller base64 WAV-stykker indlejret i messages[].content.
  2. Outputindstillinger -
    • mode: "text" → ren tekst til undertekster.
    • mode: "audio" → returnerer en streaming Opus- eller µ-law-nyttelast med tidsstempler.
  3. Funktionskald - Tilføje functions:  skema; ​​modellen udsender role: "function" med JSON-argumenter; udvikleren udfører værktøjskaldet og sender eventuelt resultatet tilbage i pipeform.
  4. Rate Kontrol - Indstil voice.speed=1.25 for at accelerere afspilningen; sikre områder 0.25–4.0.
  5. Token-/lydgrænser – 128 k kontekst (~4 min tale) ved opstart; 4096 lydtokens / 8192 teksttokens hvad end der først kommer.

Eksempelkode og API-integration

pythonimport openai

openai.api_key = "YOUR_API_KEY"

# Single-step audio completion (batch)

with open("prompt.wav", "rb") as audio:
    response = openai.ChatCompletion.create(
        model="gpt-4o-audio-preview-2025-06-03",
        messages=[
            {"role": "system", "content": "You are a helpful voice assistant."},
            {"role": "user", "content": "audio", "audio": audio}
        ],
        temperature=0.3,
        speed=1.2  # 20% faster playback

    )

print(response.choices.message)
  • Highlights:
  • model: "gpt-4o-audio-preview-2025-06-03"
  • lyd nøgle ind bruger besked til at sende binær strøm
  • hastighed: Betjeningselementer stemmehastighed mellem langsom (0.5) og hurtig (2.0)
  • temperatur: Vægt kreativitet vs konsistens

Tekniske indikatorer — Latens, kvalitet, nøjagtighed

metricLydforhåndsvisningGPT-4o (kun tekst)Delta
Første token-forsinkelse (1-skud)1.2 s gns0.35 s+0.85 sekunder
MOS (Taleens naturlighed, 5-point)4.43
Instruktionsoverholdelse (stemme)92 %73 %+19 pp
Funktionskald Arg Nøjagtighed95.8 %87 %+8.8 pp
Ordfejlrate (implicit STT)5.2 %n / a
GPU-hukommelse / stream (A100-80GB)7.1 DK14 GB (fp16)-49 %

Benchmarks udført via streaming af Chat Completions, batchstørrelse = 1.

Se også GPT-4o Realtids-API

GPT-4o Lyd

Læs mere

500+ modeller i én API

Op til 20% rabat