Les agents transforment le développement de l'IA : dernières mises à jour d'OpenAI

Le 4 juin 2025 — OpenAI a publié une puissante suite de mises à jour visant à révolutionner la façon dont les développeurs créent des agents d'IA, notamment ceux dotés de capacités d'interaction vocale. Ces mises à jour couvrent plusieurs aspects : la prise en charge complète de TypeScript dans le SDK Agents, un mécanisme d'intervention avec intervention humaine, le lancement de RealtimeAgent pour les applications vocales en temps réel et des améliorations significatives du modèle de synthèse vocale d'OpenAI.

Combinées, ces mises à jour rendent la création d’agents d’IA sécurisés, contrôlables et attrayants plus accessible que jamais.

TypeScript arrive dans le SDK Agents

Donner du pouvoir aux développeurs dans l'écosystème Web

Le populaire SDK Agents d'OpenAI prend désormais en charge TypeScript, offrant ainsi des outils robustes aux développeurs qui créent des applications d'IA en environnements JavaScript et Node.js. La version TypeScript offre des fonctionnalités comparables à celles de son homologue Python, prenant en charge toutes les primitives essentielles à la création d'agents :

Transferts – Transferts de tâches transparents entre plusieurs agents
Filières – Contraintes comportementales et mécanismes de sécurité
Traçant – Journalisation et diagnostics à granularité fine
MCP (modèle multi-composants) – Prise en charge des agents modulaires et distribués

Pourquoi est-ce important:

Les développeurs Web peuvent désormais intégrer de manière transparente des agents d'IA dans les navigateurs, les applications Web et les environnements Node.js, permettant des expériences telles que des assistants vocaux, des chatbots en temps réel et des copilotes dans le navigateur.

Mécanisme d'évaluation avec intervention humaine (HITL)

Introduction de la surveillance humaine pour un comportement plus sûr des agents

Pour renforcer la sécurité et la responsabilisation, OpenAI introduit une fonctionnalité d'approbation humaine dans les workflows des agents. Avant qu'un agent puisse exécuter certains appels d'outils externes ou certaines actions d'API, un humain peut intervenir pour approuver, refuser ou ajuster le comportement.

Flux de travail principal :

Suspendre l'exécution de l'outil
Sérialiser et enregistrer l'état actuel de l'agent
Demander un examen et une approbation humains
Reprendre le flux de travail après confirmation

Idéal pour:

Cas d'utilisation à enjeux élevés, tels que les transactions financières, l'analyse de données médicales ou les tâches sensibles du service client. Ce mécanisme améliore la transparence, la conformité et les garanties éthiques dans la prise de décision par l'IA.

RealtimeAgent : créer des agents vocaux n'a jamais été aussi simple

Le nouveau d'OpenAI Agent en temps réel La capacité exploite l'API en temps réel pour permettre aux développeurs de créer des agents vocaux robustes qui fonctionnent côté client ou côté serveur.

Caractéristiques principales:

Entrée et sortie vocales en temps réel
Appel de fonction/outil intégré
Prise en charge des interruptions et de la lecture audio dynamique
Compatibilité avec les transferts et les garde-fous

Pourquoi c'est transformateur :
Désormais, les agents vocaux peuvent être développés comme les agents textuels, avec un accès complet aux outils et à la logique de l'IA. Cela ouvre la voie à des applications avancées telles que :

Systèmes d'assistance vocale alimentés par l'IA
Outils de traduction ou de dictée en temps réel
Jeux de rôle interactifs et vocaux

Le tableau de bord Traces bénéficie d'une mise à niveau centrée sur la voix

Visualiser chaque étape d'une interaction vocale

La Traces L'outil de débogage et de surveillance a été mis à jour pour prendre en charge une visualisation riche des sessions d'agent vocal en temps réel.

Nouvelles fonctionnalités du tableau de bord :

Affichage des formes d'onde audio pour les réponses de l'utilisateur et de l'agent
Historique des appels de l'outil de journalisation et de leurs paramètres
Mettre en évidence les points d'interruption (par exemple, lorsqu'un utilisateur intervient au milieu d'une phrase)

Avantages pour les développeurs : Débogage plus clair, itération plus rapide et meilleure optimisation des expériences utilisateur vocales.

Modèle de synthèse vocale GPT-4o : plus intelligent, plus naturel

Une voix plus intelligente, une exécution améliorée

Le modèle vocal GPT-4o a subi d’importantes améliorations pour accroître son efficacité dans les tâches vocales en temps réel :

Meilleur suivi des instructions – Exécute les commandes avec une plus grande précision
Utilisation plus cohérente des outils – Réduit la variabilité dans l’invocation des outils
Gestion améliorée des interruptions – Ajustements plus intelligents au milieu du dialogue
Vitesse de parole réglable - Nouveau speed paramètre pour un rythme de sortie vocale flexible

Modèles disponibles:

gpt-4o-realtime-preview-2025-06-03 – Optimisé pour l’API en temps réel
gpt-4o-audio-preview-2025-06-03 – Conçu pour les complétions de chat avec audio

Ces mises à jour rendent les voix de l’IA plus naturelles, plus réactives et plus faciles à diriger, que ce soit pour des points de presse rapides ou des dialogues lents et instructifs.

Réflexions finales : une nouvelle ère pour les agents d'IA vocale

Avec ces quatre mises à jour, OpenAI continue d'élargir la frontière du développement d'agents d'IA, rendant plus facile, plus sûr et plus flexible pour les développeurs la création d'assistants numériques de type humain.

L'intégration de la prise en charge de TypeScript, des approbations humaines, des cadres d'agents vocaux et des modèles vocaux améliorés fournit une boîte à outils complète pour la conception d'agents intelligents, interactifs et sensibles au contexte sur toutes les plateformes et dans tous les secteurs.

Que vous créiez un assistant client à commande vocale, un personnage de jeu ou un tuteur virtuel, les derniers outils d'OpenAI vous donnent le pouvoir de le faire plus rapidement et plus intelligemment que jamais.

Pour commencer

CometAPI fournit une interface REST unifiée qui regroupe des centaines de modèles d'IA, dont la famille ChatGPT, sous un point de terminaison cohérent, avec gestion intégrée des clés API, des quotas d'utilisation et des tableaux de bord de facturation. Plus besoin de jongler avec plusieurs URL et identifiants de fournisseurs.

Pour commencer, explorez les capacités du modèle dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.

Le modèle de parole à parole GPT-4o dans CometAPI a été publié et est gpt-4o-realtime-preview-2025-06-03 et gpt-4o-audio-preview-2025-06-03Bienvenue à nous appeler !

Voir aussi API GPT-4.1