Agenter som transformerer AI-utvikling: OpenAIs siste oppdateringer

Juni 4, 2025 – OpenAI har gitt ut en kraftig pakke med oppdateringer som har som mål å revolusjonere måten utviklere bygger AI-agenter på, spesielt de med stemmebaserte interaksjonsmuligheter. Oppdateringene spenner over flere fronter: full TypeScript-støtte i Agents SDK, en human-in-the-loop-intervensjonsmekanisme, lanseringen av RealtimeAgent for sanntids taleapper og betydelige forbedringer av OpenAIs tale-til-tale-modell.

Kombinert gjør disse oppdateringene det enklere enn noensinne å bygge sikre, kontrollerbare og engasjerende AI-agenter.

TypeScript kommer til Agents SDK

Styrker utviklere i webøkosystemet

OpenAIs populære Agents SDK støtter nå TypeScript – og gir robuste verktøy til utviklere som bygger AI-applikasjoner i JavaScript- og Node.js-miljøer. TypeScript-versjonen gir funksjonsparitet med Python-motparten, og støtter alle viktige primitiver for agentbygging:

Overleveringer – Sømløs oppgaveoverføring på tvers av flere agenter
Rekkverk – Atferdsmessige begrensninger og sikkerhetsmekanismer
Sporing – Finkornet logging og diagnostikk
MCP (flerkomponentmønster) – Støtte for modulære, distribuerte agenter

Hvorfor det gjelder:

Nettutviklere kan nå sømløst bygge inn AI-agenter i nettlesere, nettapper og Node.js-miljøer, noe som muliggjør opplevelser som stemmeassistenter, chatboter i sanntid og copiloter i nettleseren.

HITL-vurderingsmekanisme (Human-in-the-Loop)

Introduksjon av menneskelig tilsyn for tryggere agentatferd

For å styrke sikkerhet og ansvarlighet introduserer OpenAI en funksjon for menneskelig godkjenning i agentarbeidsflyter. Før en agent kan utføre visse eksterne verktøykall eller API-handlinger, kan et menneske gripe inn for å godkjenne, avvise eller justere virkemåten.

Kjernearbeidsflyt:

Pause verktøykjøring
Serialiser og lagre gjeldende agentstatus
Be om menneskelig gjennomgang og godkjenning
Gjenoppta arbeidsflyten etter bekreftelse

Ideell for:

Brukstilfeller med høy innsats, som for eksempel finansielle transaksjoner, analyse av medisinske data eller sensitive kundeserviceoppgaver. Denne mekanismen forbedrer åpenhet, samsvar og etiske sikkerhetstiltak i beslutningstaking knyttet til kunstig intelligens.

RealtimeAgent: Det har aldri vært enklere å bygge stemmeagenter

OpenAI er nytt Sanntidsagent Funksjonen utnytter Realtime API-et for å la utviklere bygge robuste stemmeagenter som fungerer enten på klient- eller serversiden.

Viktige funksjoner:

Taleinndata og -utdata i sanntid
Integrert funksjons-/verktøykall
Støtte for avbrudd og dynamisk lydavspilling
Kompatibilitet med overleveringer og rekkverk

Hvorfor det er transformativt:
Nå kan taleagenter utvikles akkurat som tekstagenter – med full tilgang til AI-verktøy og -logikk. Dette åpner døren for avanserte applikasjoner som:

AI-drevne stemmestøttesystemer
Verktøy for oversettelse eller diktering i sanntid
Interaktive, taleaktiverte rollespill

Traces Dashboard får en stemmesentrert oppgradering

Visualisere hvert trinn i en taleinteraksjon

Ocuco Traces Feilsøkings- og overvåkingsverktøyet er oppdatert for å støtte rik visualisering av stemmeagentøkter i sanntid.

Nye dashbordfunksjoner:

Viser lydbølgeformer for både bruker- og agentresponser
Loggverktøyets anropshistorikk og parameterne deres
Fremheve avbrytelsespunkter (f.eks. når en bruker avbryter midt i en setning)

Fordeler for utviklere: Tydeligere feilsøking, raskere iterasjon og bedre optimalisering av stemmeorienterte brukeropplevelser.

GPT-4o tale-til-tale-modell: Mer intelligent, mer naturlig

Smartere stemme, forbedret utførelse

GPT-4o-talemodellen har gjennomgått omfattende forbedringer for å øke effektiviteten i sanntids taleoppgaver:

Bedre oppfølging av instruksjoner – Utfører kommandoer med høyere nøyaktighet
Mer konsekvent verktøybruk – Reduserer variasjon i verktøyaktivering
Forbedret håndtering av avbrudd – Smartere justeringer midt i dialogen
Justerbar talehastighet - Nytt speed parameter for fleksibel stemmeutgangspacing

Tilgjengelige modeller:

gpt-4o-realtime-preview-2025-06-03 – Optimalisert for sanntids-API
gpt-4o-audio-preview-2025-06-03 – Utviklet for chat-fullføringer med lyd

Disse oppdateringene gjør AI-stemmer mer naturlige, mer responsive og enklere å styre – enten det er for raske nyhetsbriefinger eller langsom, instruksjonsorientert dialog.

Avsluttende tanker: En ny æra for stemme-AI-agenter

Med disse fire oppdateringene fortsetter OpenAI å utvide grensene for utvikling av AI-agenter – noe som gjør det enklere, tryggere og mer fleksibelt for utviklere å lage menneskelignende digitale assistenter.

Integreringen av TypeScript-støtte, godkjenninger av menneskelige signaler i loopen, rammeverk for stemmeagenter og oppgraderte talemodeller gir et komplett verktøysett for å designe intelligente, interaktive og kontekstbevisste agenter på tvers av plattformer og bransjer.

Enten du bygger en stemmeaktivert kundeassistent, en spillfigur eller en virtuell veileder, gir OpenAIs nyeste verktøy deg muligheten til å gjøre det raskere – og smartere – enn noen gang før.

Komme i gang

CometAPI tilbyr et enhetlig REST-grensesnitt som samler hundrevis av AI-modeller – inkludert ChatGPT-familien – under et konsistent endepunkt, med innebygd API-nøkkeladministrasjon, brukskvoter og faktureringsdashboards. I stedet for å sjonglere flere leverandør-URL-er og legitimasjonsinformasjon.

For å begynne, utforsk modellens muligheter i lekeplass og konsulter API-veiledning for detaljerte instruksjoner. Før du får tilgang, må du sørge for at du har logget inn på CometAPI og fått API-nøkkelen.

GPT-4o tale-til-tale-modell i CometAPI har utgitt som er gpt-4o-realtime-preview-2025-06-03 og gpt-4o-audio-preview-2025-06-03,Velkommen til å ringe!

Se også GPT-4.1 API