Le 4 juin 2025 — OpenAI a publié une puissante suite de mises à jour visant à révolutionner la façon dont les développeurs créent des agents d'IA, notamment ceux dotés de capacités d'interaction vocale. Ces mises à jour couvrent plusieurs aspects : la prise en charge complète de TypeScript dans le SDK Agents, un mécanisme d'intervention avec intervention humaine, le lancement de RealtimeAgent pour les applications vocales en temps réel et des améliorations significatives du modèle de synthèse vocale d'OpenAI.
Combinées, ces mises à jour rendent la création d’agents d’IA sécurisés, contrôlables et attrayants plus accessible que jamais.
TypeScript arrive dans le SDK Agents
Donner du pouvoir aux développeurs dans l'écosystème Web
Le populaire SDK Agents d'OpenAI prend désormais en charge TypeScript, offrant ainsi des outils robustes aux développeurs qui créent des applications d'IA en environnements JavaScript et Node.js. La version TypeScript offre des fonctionnalités comparables à celles de son homologue Python, prenant en charge toutes les primitives essentielles à la création d'agents :
- Transferts – Transferts de tâches transparents entre plusieurs agents
- Filières – Contraintes comportementales et mécanismes de sécurité
- Traçant – Journalisation et diagnostics à granularité fine
- MCP (modèle multi-composants) – Prise en charge des agents modulaires et distribués
Pourquoi est-ce important:
Les développeurs Web peuvent désormais intégrer de manière transparente des agents d'IA dans les navigateurs, les applications Web et les environnements Node.js, permettant des expériences telles que des assistants vocaux, des chatbots en temps réel et des copilotes dans le navigateur.
Mécanisme d'évaluation avec intervention humaine (HITL)
Introduction de la surveillance humaine pour un comportement plus sûr des agents
Pour renforcer la sécurité et la responsabilisation, OpenAI introduit une fonctionnalité d'approbation humaine dans les workflows des agents. Avant qu'un agent puisse exécuter certains appels d'outils externes ou certaines actions d'API, un humain peut intervenir pour approuver, refuser ou ajuster le comportement.
Flux de travail principal :
- Suspendre l'exécution de l'outil
- Sérialiser et enregistrer l'état actuel de l'agent
- Demander un examen et une approbation humains
- Reprendre le flux de travail après confirmation
Idéal pour:
Cas d'utilisation à enjeux élevés, tels que les transactions financières, l'analyse de données médicales ou les tâches sensibles du service client. Ce mécanisme améliore la transparence, la conformité et les garanties éthiques dans la prise de décision par l'IA.
RealtimeAgent : créer des agents vocaux n'a jamais été aussi simple
Le nouveau d'OpenAI Agent en temps réel La capacité exploite l'API en temps réel pour permettre aux développeurs de créer des agents vocaux robustes qui fonctionnent côté client ou côté serveur.
Caractéristiques principales:
- Entrée et sortie vocales en temps réel
- Appel de fonction/outil intégré
- Prise en charge des interruptions et de la lecture audio dynamique
- Compatibilité avec les transferts et les garde-fous
Pourquoi c'est transformateur :
Désormais, les agents vocaux peuvent être développés comme les agents textuels, avec un accès complet aux outils et à la logique de l'IA. Cela ouvre la voie à des applications avancées telles que :
- Systèmes d'assistance vocale alimentés par l'IA
- Outils de traduction ou de dictée en temps réel
- Jeux de rôle interactifs et vocaux
Le tableau de bord Traces bénéficie d'une mise à niveau centrée sur la voix
Visualiser chaque étape d'une interaction vocale
La Traces L'outil de débogage et de surveillance a été mis à jour pour prendre en charge une visualisation riche des sessions d'agent vocal en temps réel.
Nouvelles fonctionnalités du tableau de bord :
- Affichage des formes d'onde audio pour les réponses de l'utilisateur et de l'agent
- Historique des appels de l'outil de journalisation et de leurs paramètres
- Mettre en évidence les points d'interruption (par exemple, lorsqu'un utilisateur intervient au milieu d'une phrase)
Avantages pour les développeurs : Débogage plus clair, itération plus rapide et meilleure optimisation des expériences utilisateur vocales.
Modèle de synthèse vocale GPT-4o : plus intelligent, plus naturel
Une voix plus intelligente, une exécution améliorée
Le modèle vocal GPT-4o a subi d’importantes améliorations pour accroître son efficacité dans les tâches vocales en temps réel :
- Meilleur suivi des instructions – Exécute les commandes avec une plus grande précision
- Utilisation plus cohérente des outils – Réduit la variabilité dans l’invocation des outils
- Gestion améliorée des interruptions – Ajustements plus intelligents au milieu du dialogue
- Vitesse de parole réglable - Nouveau
speedparamètre pour un rythme de sortie vocale flexible
Modèles disponibles:
gpt-4o-realtime-preview-2025-06-03– Optimisé pour l’API en temps réelgpt-4o-audio-preview-2025-06-03– Conçu pour les complétions de chat avec audio
Ces mises à jour rendent les voix de l’IA plus naturelles, plus réactives et plus faciles à diriger, que ce soit pour des points de presse rapides ou des dialogues lents et instructifs.
Réflexions finales : une nouvelle ère pour les agents d'IA vocale
Avec ces quatre mises à jour, OpenAI continue d'élargir la frontière du développement d'agents d'IA, rendant plus facile, plus sûr et plus flexible pour les développeurs la création d'assistants numériques de type humain.
L'intégration de la prise en charge de TypeScript, des approbations humaines, des cadres d'agents vocaux et des modèles vocaux améliorés fournit une boîte à outils complète pour la conception d'agents intelligents, interactifs et sensibles au contexte sur toutes les plateformes et dans tous les secteurs.
Que vous créiez un assistant client à commande vocale, un personnage de jeu ou un tuteur virtuel, les derniers outils d'OpenAI vous donnent le pouvoir de le faire plus rapidement et plus intelligemment que jamais.
Pour commencer
CometAPI fournit une interface REST unifiée qui regroupe des centaines de modèles d'IA, dont la famille ChatGPT, sous un point de terminaison cohérent, avec gestion intégrée des clés API, des quotas d'utilisation et des tableaux de bord de facturation. Plus besoin de jongler avec plusieurs URL et identifiants de fournisseurs.
Pour commencer, explorez les capacités du modèle dans le cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder.
Le modèle de parole à parole GPT-4o dans CometAPI a été publié et est gpt-4o-realtime-preview-2025-06-03 et gpt-4o-audio-preview-2025-06-03Bienvenue à nous appeler !
Voir aussi API GPT-4.1
