4 июня 2025 — OpenAI выпустила мощный набор обновлений, нацеленных на революционные изменения в том, как разработчики создают агентов ИИ, особенно с возможностями голосового взаимодействия. Обновления охватывают несколько направлений: полная поддержка TypeScript в Agents SDK, механизм вмешательства человека в процесс, дебют RealtimeAgent для голосовых приложений в реальном времени и значительные улучшения модели преобразования речи в речь OpenAI.
В совокупности эти обновления делают создание безопасных, контролируемых и интересных агентов ИИ более доступным, чем когда-либо.
TypeScript входит в Agents SDK
Расширение прав и возможностей разработчиков в веб-экосистеме
Популярный SDK агентов OpenAI теперь поддерживает TypeScript, предоставляя надежный инструментарий разработчикам, создающим приложения ИИ в средах JavaScript и Node.js. Версия TypeScript обеспечивает паритет функций с аналогом Python, поддерживая все основные примитивы построения агентов:
- Передачи – Бесперебойная передача задач между несколькими агентами
- защитное ограждение – Поведенческие ограничения и механизмы безопасности
- трассировка – Детальное ведение журнала и диагностика
- MCP (Многокомпонентный шаблон) – Поддержка модульных распределенных агентов
Почему это важно:
Веб-разработчики теперь могут легко встраивать агентов ИИ в браузеры, веб-приложения и среды Node.js, обеспечивая такие возможности, как голосовые помощники, чат-боты в реальном времени и встроенные в браузер вторые пилоты.
Механизм обзора «Человек в контуре» (HITL)
Внедрение человеческого контроля для более безопасного поведения агентов
Для повышения безопасности и ответственности OpenAI вводит функцию одобрения человеком в рабочие процессы агентов. Прежде чем агент сможет выполнить определенные внешние вызовы инструментов или действия API, человек может вмешаться, чтобы одобрить, отклонить или скорректировать поведение.
Основной рабочий процесс:
- Приостановить выполнение инструмента
- Сериализовать и сохранить текущее состояние агента
- Запросить проверку и одобрение человека
- Возобновите рабочий процесс после подтверждения
Идеально для:
Примеры использования, связанные с высокими ставками, например, финансовые транзакции, анализ медицинских данных или деликатные задачи обслуживания клиентов. Этот механизм повышает прозрачность, соответствие и этические гарантии в принятии решений ИИ.
RealtimeAgent: создание голосовых агентов никогда не было таким простым
Новинка OpenAI RealtimeAgent Возможности Realtime API позволяют разработчикам создавать надежные голосовые агенты, работающие как на стороне клиента, так и на стороне сервера.
Ключевые особенности:
- Ввод и вывод речи в реальном времени
- Интегрированный вызов функций/инструментов
- Поддержка прерываний и динамического воспроизведения звука
- Совместимость с перехватами и ограждениями
Почему это преобразует:
Теперь голосовые агенты могут быть разработаны так же, как и текстовые агенты — с полным доступом к инструментам и логике ИИ. Это открывает двери для продвинутых приложений, таких как:
- Системы голосовой поддержки на базе искусственного интеллекта
- Инструменты для перевода и диктовки в реальном времени
- Интерактивные ролевые игры с поддержкой речи
Панель инструментов Traces получает обновление с поддержкой голосового управления
Визуализация каждого шага голосового взаимодействия
The Следы Инструмент отладки и мониторинга был обновлен для поддержки расширенной визуализации сеансов голосового агента в реальном времени.
Новые возможности панели инструментов:
- Отображение звуковых сигналов для ответов как пользователя, так и агента
- Ведение истории вызовов инструментов и их параметров
- Выделение моментов прерывания (например, когда пользователь вставляет реплику посреди предложения)
Преимущества для разработчиков: Более четкая отладка, более быстрая итерация и лучшая оптимизация голосового взаимодействия с пользователем.
Модель преобразования речи в речь GPT-4o: более интеллектуальная, более естественная
Более умный голос, улучшенное исполнение
Речевая модель GPT-4o претерпела значительные усовершенствования для повышения ее эффективности при выполнении голосовых задач в реальном времени:
- Лучше следовать инструкциям – Выполняет команды с большей точностью
- Более последовательное использование инструмента – Уменьшает вариативность вызова инструмента
- Улучшенная обработка прерываний – Более разумные корректировки в середине диалога
- Регулируемая скорость речи - новый
speedпараметр для гибкой регулировки речевого вывода
Доступные модели:
gpt-4o-realtime-preview-2025-06-03– Оптимизировано для API реального времениgpt-4o-audio-preview-2025-06-03– Разработано для завершения чата со звуком
Благодаря этим обновлениям голоса ИИ становятся более естественными, более отзывчивыми и более удобными для управления — как для быстрых новостных брифингов, так и для медленных обучающих диалогов.
Заключительные мысли: новая эра голосовых ИИ-агентов
Благодаря этим четырем обновлениям OpenAI продолжает расширять границы разработки агентов ИИ, делая создание цифровых помощников, похожих на человека, более простым, безопасным и гибким для разработчиков.
Интеграция поддержки TypeScript, одобрений с участием человека, фреймворков голосовых агентов и усовершенствованных речевых моделей обеспечивает полный набор инструментов для разработки интеллектуальных, интерактивных и контекстно-зависимых агентов для различных платформ и отраслей.
Независимо от того, создаете ли вы голосового помощника клиентов, игрового персонажа или виртуального наставника, новейшие инструменты OpenAI дают вам возможность сделать это быстрее и эффективнее, чем когда-либо прежде.
Первые шаги
CometAPI предоставляет унифицированный интерфейс REST, который объединяет сотни моделей ИИ, включая семейство ChatGPT, в единой конечной точке со встроенным управлением ключами API, квотами использования и панелями выставления счетов. Вместо жонглирования несколькими URL-адресами поставщиков и учетными данными.
Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.
Выпущена модель преобразования речи в речь GPT-4o в CometAPI, которая gpt-4o-realtime-preview-2025-06-03 и gpt-4o-audio-preview-2025-06-03,Добро пожаловать!
См. также API GPT-4.1
