Агенты, преобразующие разработку ИИ: последние обновления OpenAI

4 июня 2025 — OpenAI выпустила мощный набор обновлений, нацеленных на революционные изменения в том, как разработчики создают агентов ИИ, особенно с возможностями голосового взаимодействия. Обновления охватывают несколько направлений: полная поддержка TypeScript в Agents SDK, механизм вмешательства человека в процесс, дебют RealtimeAgent для голосовых приложений в реальном времени и значительные улучшения модели преобразования речи в речь OpenAI.

В совокупности эти обновления делают создание безопасных, контролируемых и интересных агентов ИИ более доступным, чем когда-либо.

TypeScript входит в Agents SDK

Расширение прав и возможностей разработчиков в веб-экосистеме

Популярный SDK агентов OpenAI теперь поддерживает TypeScript, предоставляя надежный инструментарий разработчикам, создающим приложения ИИ в средах JavaScript и Node.js. Версия TypeScript обеспечивает паритет функций с аналогом Python, поддерживая все основные примитивы построения агентов:

Передачи – Бесперебойная передача задач между несколькими агентами
защитное ограждение – Поведенческие ограничения и механизмы безопасности
трассировка – Детальное ведение журнала и диагностика
MCP (Многокомпонентный шаблон) – Поддержка модульных распределенных агентов

Почему это важно:

Веб-разработчики теперь могут легко встраивать агентов ИИ в браузеры, веб-приложения и среды Node.js, обеспечивая такие возможности, как голосовые помощники, чат-боты в реальном времени и встроенные в браузер вторые пилоты.

Механизм обзора «Человек в контуре» (HITL)

Внедрение человеческого контроля для более безопасного поведения агентов

Для повышения безопасности и ответственности OpenAI вводит функцию одобрения человеком в рабочие процессы агентов. Прежде чем агент сможет выполнить определенные внешние вызовы инструментов или действия API, человек может вмешаться, чтобы одобрить, отклонить или скорректировать поведение.

Основной рабочий процесс:

Приостановить выполнение инструмента
Сериализовать и сохранить текущее состояние агента
Запросить проверку и одобрение человека
Возобновите рабочий процесс после подтверждения

Идеально для:

Примеры использования, связанные с высокими ставками, например, финансовые транзакции, анализ медицинских данных или деликатные задачи обслуживания клиентов. Этот механизм повышает прозрачность, соответствие и этические гарантии в принятии решений ИИ.

RealtimeAgent: создание голосовых агентов никогда не было таким простым

Новинка OpenAI RealtimeAgent Возможности Realtime API позволяют разработчикам создавать надежные голосовые агенты, работающие как на стороне клиента, так и на стороне сервера.

Ключевые особенности:

Ввод и вывод речи в реальном времени
Интегрированный вызов функций/инструментов
Поддержка прерываний и динамического воспроизведения звука
Совместимость с перехватами и ограждениями

Почему это преобразует:
Теперь голосовые агенты могут быть разработаны так же, как и текстовые агенты — с полным доступом к инструментам и логике ИИ. Это открывает двери для продвинутых приложений, таких как:

Системы голосовой поддержки на базе искусственного интеллекта
Инструменты для перевода и диктовки в реальном времени
Интерактивные ролевые игры с поддержкой речи

Панель инструментов Traces получает обновление с поддержкой голосового управления

Визуализация каждого шага голосового взаимодействия

The Следы Инструмент отладки и мониторинга был обновлен для поддержки расширенной визуализации сеансов голосового агента в реальном времени.

Новые возможности панели инструментов:

Отображение звуковых сигналов для ответов как пользователя, так и агента
Ведение истории вызовов инструментов и их параметров
Выделение моментов прерывания (например, когда пользователь вставляет реплику посреди предложения)

Преимущества для разработчиков: Более четкая отладка, более быстрая итерация и лучшая оптимизация голосового взаимодействия с пользователем.

Модель преобразования речи в речь GPT-4o: более интеллектуальная, более естественная

Более умный голос, улучшенное исполнение

Речевая модель GPT-4o претерпела значительные усовершенствования для повышения ее эффективности при выполнении голосовых задач в реальном времени:

Лучше следовать инструкциям – Выполняет команды с большей точностью
Более последовательное использование инструмента – Уменьшает вариативность вызова инструмента
Улучшенная обработка прерываний – Более разумные корректировки в середине диалога
Регулируемая скорость речи - новый speed параметр для гибкой регулировки речевого вывода

Доступные модели:

gpt-4o-realtime-preview-2025-06-03 – Оптимизировано для API реального времени
gpt-4o-audio-preview-2025-06-03 – Разработано для завершения чата со звуком

Благодаря этим обновлениям голоса ИИ становятся более естественными, более отзывчивыми и более удобными для управления — как для быстрых новостных брифингов, так и для медленных обучающих диалогов.

Заключительные мысли: новая эра голосовых ИИ-агентов

Благодаря этим четырем обновлениям OpenAI продолжает расширять границы разработки агентов ИИ, делая создание цифровых помощников, похожих на человека, более простым, безопасным и гибким для разработчиков.

Интеграция поддержки TypeScript, одобрений с участием человека, фреймворков голосовых агентов и усовершенствованных речевых моделей обеспечивает полный набор инструментов для разработки интеллектуальных, интерактивных и контекстно-зависимых агентов для различных платформ и отраслей.

Независимо от того, создаете ли вы голосового помощника клиентов, игрового персонажа или виртуального наставника, новейшие инструменты OpenAI дают вам возможность сделать это быстрее и эффективнее, чем когда-либо прежде.

Первые шаги

CometAPI предоставляет унифицированный интерфейс REST, который объединяет сотни моделей ИИ, включая семейство ChatGPT, в единой конечной точке со встроенным управлением ключами API, квотами использования и панелями выставления счетов. Вместо жонглирования несколькими URL-адресами поставщиков и учетными данными.

Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.

Выпущена модель преобразования речи в речь GPT-4o в CometAPI, которая gpt-4o-realtime-preview-2025-06-03 и gpt-4o-audio-preview-2025-06-03,Добро пожаловать!

См. также API GPT-4.1