Маусым 4, 2025 — OpenAI әзірлеушілердің AI агенттерін, әсіресе дауысқа негізделген өзара әрекеттесу мүмкіндіктерін құру жолын өзгертуге бағытталған қуатты жаңартулар жинағын шығарды. Жаңартулар бірнеше бағытты қамтиды: Agents SDK жүйесінде толық TypeScript қолдауы, адамның циклде араласу механизмі, нақты уақыттағы дауыстық қолданбаларға арналған RealtimeAgent дебюті және OpenAI-дің сөйлеуден сөйлеуге моделінің маңызды жақсартулары.
Біріктірілген бұл жаңартулар құрылысты қауіпсіз, басқарылатын және тартымды AI агенттерін бұрынғыдан да қолжетімді етеді.
TypeScript SDK агенттеріне келеді
Веб-экожүйедегі әзірлеушілерді кеңейту
OpenAI-дің танымал агенттері SDK енді TypeScript-ті қолдайды — JavaScript және Node.js орталарында AI қолданбаларын құрастыратын әзірлеушілерге сенімді құралдарды ұсынады. TypeScript нұсқасы агент құрудың барлық маңызды примитивтерін қолдайтын Python аналогымен мүмкіндіктердің теңдігін қамтамасыз етеді:
- Қолдану – Тапсырманы бірнеше агенттер арқылы үздіксіз тасымалдау
- Қорғағыштар – Мінез-құлық шектеулері және қауіпсіздік механизмдері
- Қадағалау – Ұсақ түйіршікті каротаж және диагностика
- MCP (көп құрамды үлгі) – Модульдік, бөлінген агенттерді қолдау
Неліктен маңызды:
Веб-әзірлеушілер енді AI агенттерін браузерлерге, веб-қолданбаларға және Node.js орталарына кедергісіз енгізе алады, бұл дауыстық көмекшілер, нақты уақыттағы чат-боттар және шолғыштағы екінші пилоттар сияқты тәжірибелерді қоса алады.
Адамның циклдегі (HITL) шолу механизмі
Қауіпсіз агент мінез-құлқы үшін адам бақылауын енгізу
Қауіпсіздік пен жауапкершілікті күшейту үшін OpenAI агент жұмыс үрдісінде адам мақұлдау мүмкіндігін ұсынады. Агент белгілі бір сыртқы құрал шақыруларын немесе API әрекеттерін орындамас бұрын, адам әрекетті мақұлдау, қабылдамау немесе реттеу үшін араласа алады.
Негізгі жұмыс процесі:
- Құралдың орындалуын кідірту
- Ағымдағы агент күйін сериялау және сақтау
- Адамдардың тексеруін және мақұлдауын сұраңыз
- Растаудан кейін жұмыс процесін жалғастырыңыз
Бұл үшін идеал:
Қаржылық транзакциялар, медициналық деректерді талдау немесе тұтынушыларға қызмет көрсетудің сезімтал тапсырмалары сияқты жоғары ставкаларды қамтитын жағдайларды пайдаланыңыз. Бұл механизм AI шешімдерін қабылдау кезінде ашықтықты, сәйкестікті және этикалық қауіпсіздік шараларын жақсартады.
RealtimeAgent: дауыс агенттерін құру ешқашан оңай болған емес
OpenAI жаңа RealtimeAgent мүмкіндігі әзірлеушілерге клиент немесе сервер жағында жұмыс істейтін сенімді дауыс агенттерін құруға мүмкіндік беру үшін Realtime API пайдаланады.
Басты ерекшеліктер:
- Нақты уақыттағы сөйлеуді енгізу және шығару
- Біріктірілген функция/құрал шақыру
- Үзілістерді және динамикалық дыбысты ойнатуды қолдау
- Өткізгіштермен және қоршаулармен үйлесімділік
Неліктен ол трансформациялық:
Енді дауыс агенттерін мәтіндік агенттер сияқты әзірлеуге болады — AI құралдары мен логикасына толық қол жетімділік. Бұл келесідей кеңейтілген қолданбаларға есік ашады:
- AI-мен жұмыс істейтін дауысты қолдау жүйелері
- Нақты уақыттағы аударма немесе диктант құралдары
- Интерактивті, сөйлеуге мүмкіндік беретін рөлдік ойындар
Traces бақылау тақтасы дауысқа бағытталған жаңартуды алады
Дауыспен әрекеттесудің әрбір қадамын визуализациялау
The Іздер нақты уақыттағы дауыс агентінің сеанстарының бай визуализациясын қолдау үшін жөндеу және бақылау құралы жаңартылды.
Жаңа бақылау тақтасының мүмкіндіктері:
- Пайдаланушы мен агент жауаптары үшін аудио толқын пішіндерін көрсету
- Тіркеу құралының қоңыраулар журналы және олардың параметрлері
- Үзіліс нүктелерін бөлектеу (мысалы, пайдаланушы сөйлемнің ортасына араласқанда)
Әзірлеушілер үшін артықшылықтар: Түзетуді анықтау, жылдамырақ итерация және бірінші дауысты пайдаланушы тәжірибесін оңтайландыру.
GPT-4o Speech-to-Speech моделі: анағұрлым интеллектуалды, анағұрлым табиғи
Ақылды дауыс, жақсартылған орындау
GPT-4o сөйлеу үлгісі нақты уақыттағы дауыс тапсырмаларында тиімділігін арттыру үшін ауқымды жақсартулардан өтті:
- Одан кейінгі жақсы нұсқау – Командаларды жоғары дәлдікпен орындайды
- Құралды неғұрлым дәйекті пайдалану – Құралды шақырудағы өзгермелілікті азайтады
- Үзілістерді өңдеу жақсартылған – Диалог ортасындағы ақылды реттеулер
- Реттелетін сөйлеу жылдамдығы - Жаңа
speedикемді дауыс шығысының жылдамдығына арналған параметр
Қол жетімді модельдер:
gpt-4o-realtime-preview-2025-06-03– Realtime API үшін оңтайландырылғанgpt-4o-audio-preview-2025-06-03- Дыбыспен сөйлесуді аяқтауға арналған
Бұл жаңартулар AI дауыстарын табиғирақ, жылдамырақ жауап береді және жылдам қарқынмен жүретін жаңалықтар брифингтері немесе баяу, нұсқаулық диалогтары үшін оңай бағыттайды.
Соңғы ойлар: дауыстық AI агенттерінің жаңа дәуірі
Осы төрт жаңартумен OpenAI AI агентін дамыту шекарасын кеңейтуді жалғастыруда, бұл әзірлеушілерге адамға ұқсас цифрлық көмекшілерді жасауды жеңілдетеді, қауіпсіз және икемді етеді.
TypeScript қолдауын, адамның циклдегі мақұлдауларын, дауыстық агент құрылымдарын және жаңартылған сөйлеу үлгілерін біріктіру платформалар мен салаларда интеллектуалды, интерактивті және контекстен хабардар агенттерді жобалауға арналған толық құралдар жинағын қамтамасыз етеді.
Дауыспен жұмыс істейтін тұтынушы көмекшісін, ойын кейіпкерін немесе виртуалды репетиторды жасап жатсаңыз да, OpenAI-дің соңғы құралдары сізге мұны бұрынғыдан да жылдам және ақылдырақ орындауға мүмкіндік береді.
Басталу
CometAPI ендірілген API кілтін басқару, пайдалану квоталары және есеп айырысу бақылау тақталары бар дәйекті соңғы нүкте астында жүздеген AI үлгілерін, соның ішінде ChatGPT отбасын біріктіретін бірыңғай REST интерфейсін ұсынады. Бірнеше жеткізушінің URL мекенжайлары мен тіркелгі деректерін араластырудың орнына.
Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз.
CometAPI жүйесіндегі GPT-4o Speech-to Speech моделі шығарылды gpt-4o-realtime-preview-2025-06-03 және gpt-4o-audio-preview-2025-06-03, Қоңырау шалуға қош келдіңіз!
Сондай-ақ, қараңыз GPT-4.1 API
