Agen Mengubah Pengembangan AI: Pembaruan Terbaru OpenAI

CometAPI
annaJun 6, 2025
Agen Mengubah Pengembangan AI: Pembaruan Terbaru OpenAI

Juni 4, 2025 — OpenAI telah merilis serangkaian pembaruan hebat yang ditujukan untuk merevolusi cara pengembang membangun agen AI, khususnya yang memiliki kemampuan interaksi berbasis suara. Pembaruan tersebut mencakup berbagai hal: dukungan TypeScript penuh di SDK Agen, mekanisme intervensi manusia, peluncuran RealtimeAgent untuk aplikasi suara real-time, dan penyempurnaan signifikan pada model ucapan-ke-ucapan OpenAI.

Jika digabungkan, pembaruan ini membuat pembuatan agen AI yang aman, terkendali, dan menarik menjadi lebih mudah diakses dari sebelumnya.


TypeScript Hadir di SDK Agen

Memberdayakan Pengembang dalam Ekosistem Web

SDK Agen OpenAI yang populer kini mendukung TypeScript—memberikan perkakas yang tangguh bagi pengembang yang membangun aplikasi AI di lingkungan JavaScript dan Node.js. Versi TypeScript menyediakan fitur yang setara dengan versi Python, mendukung semua primitif penting dalam membangun agen:

  • Handoff – Transfer tugas yang lancar antar beberapa agen
  • Pagar – Kendala perilaku dan mekanisme keselamatan
  • jiplakan – Pencatatan dan diagnostik berbutir halus
  • MCP (Pola Multi-Komponen) – Dukungan untuk agen modular dan terdistribusi

Mengapa itu Penting:

Pengembang web kini dapat dengan mudah menyematkan agen AI di browser, aplikasi web, dan lingkungan Node.js, yang memungkinkan pengalaman seperti asisten suara, chatbot waktu nyata, dan kopilot dalam browser.


Mekanisme Peninjauan Human-in-the-Loop (HITL)

Memperkenalkan Pengawasan Manusia untuk Perilaku Agen yang Lebih Aman

Untuk meningkatkan keamanan dan akuntabilitas, OpenAI memperkenalkan fitur persetujuan manusia dalam alur kerja agen. Sebelum agen dapat menjalankan panggilan alat eksternal atau tindakan API tertentu, manusia dapat melakukan intervensi untuk menyetujui, menolak, atau menyesuaikan perilaku tersebut.

Alur Kerja Inti:

  1. Jeda eksekusi alat
  2. Serialisasikan dan simpan status agen saat ini
  3. Minta peninjauan dan persetujuan manusia
  4. Lanjutkan alur kerja setelah konfirmasi

Ideal Untuk:

Kasus penggunaan yang melibatkan risiko tinggi, seperti transaksi keuangan, analisis data medis, atau tugas layanan pelanggan yang sensitif. Mekanisme ini meningkatkan transparansi, kepatuhan, dan perlindungan etika dalam pengambilan keputusan AI.


RealtimeAgent: Membangun Agen Suara Tidak Pernah Semudah Ini

OpenAI yang baru Agen Waktu Nyata Kemampuan ini memanfaatkan API Realtime untuk memungkinkan pengembang membangun agen suara tangguh yang berfungsi baik di sisi klien maupun sisi server.

Fitur Utama:

  • Input dan output ucapan secara real-time
  • Panggilan fungsi/alat terintegrasi
  • Dukungan untuk interupsi dan pemutaran audio dinamis
  • Kompatibilitas dengan handoff dan guardrails

Mengapa Ini Transformatif:
Kini, agen suara dapat dikembangkan seperti halnya agen teks—dengan akses penuh ke perangkat dan logika AI. Ini membuka peluang bagi aplikasi tingkat lanjut seperti:

  • Sistem dukungan suara bertenaga AI
  • Alat terjemahan atau dikte waktu nyata
  • Permainan peran interaktif dengan kemampuan bicara

Dasbor Traces Mendapatkan Peningkatan yang Berpusat pada Suara

Memvisualisasikan Setiap Langkah Interaksi Suara

The Jejak Alat debugging dan pemantauan telah diperbarui untuk mendukung visualisasi yang kaya dari sesi agen suara waktu nyata.

Kemampuan Dasbor Baru:

  • Menampilkan bentuk gelombang audio untuk respons pengguna dan agen
  • Mencatat riwayat panggilan alat dan parameternya
  • Menyoroti titik interupsi (misalnya, saat pengguna menyela di tengah kalimat)

Manfaat bagi Pengembang: Debugging yang lebih jelas, iterasi yang lebih cepat, dan pengoptimalan yang lebih baik untuk pengalaman pengguna yang mengutamakan suara.


Model Ucapan-ke-Ucapan GPT-4o: Lebih Cerdas, Lebih Alami

Suara Lebih Cerdas, Eksekusi Lebih Baik

Model ucapan GPT-4o telah mengalami banyak perbaikan untuk meningkatkan efektivitasnya dalam tugas suara waktu nyata:

  • Instruksi yang lebih baik mengikuti – Menjalankan perintah dengan akurasi lebih tinggi
  • Penggunaan alat yang lebih konsisten – Mengurangi variabilitas dalam pemanggilan alat
  • Penanganan interupsi yang ditingkatkan – Penyesuaian tengah dialog yang lebih cerdas
  • Kecepatan bicara dapat disesuaikan - Baru speed parameter untuk kecepatan keluaran suara yang fleksibel

Model yang tersedia:

  • gpt-4o-realtime-preview-2025-06-03 – Dioptimalkan untuk API Realtime
  • gpt-4o-audio-preview-2025-06-03 – Dirancang untuk Penyelesaian Obrolan dengan audio

Pembaruan ini membuat suara AI lebih alami, lebih responsif, dan lebih mudah diarahkan—baik untuk pengarahan berita yang cepat maupun dialog instruksional yang lambat.

Pemikiran Akhir: Era Baru untuk Agen AI Suara

Dengan keempat pembaruan ini, OpenAI terus memperluas cakupan pengembangan agen AI—menjadikannya lebih mudah, aman, dan fleksibel bagi pengembang untuk membuat asisten digital mirip manusia.

Integrasi dukungan TypeScript, persetujuan keterlibatan manusia, kerangka kerja agen suara, dan model ucapan yang ditingkatkan menyediakan perangkat lengkap untuk merancang agen yang cerdas, interaktif, dan sadar konteks di seluruh platform dan industri.

Baik Anda sedang membangun asisten pelanggan berkemampuan suara, karakter game, atau tutor virtual, alat terbaru OpenAI memberi Anda kekuatan untuk melakukannya lebih cepat—dan lebih cerdas—daripada sebelumnya.

Mulai

CometAPI menyediakan antarmuka REST terpadu yang menggabungkan ratusan model AI—termasuk keluarga ChatGPT—di bawah titik akhir yang konsisten, dengan manajemen kunci API bawaan, kuota penggunaan, dan dasbor penagihan. Daripada harus mengelola beberapa URL dan kredensial vendor.

Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API.

Model Ucapan-ke-Ucapan GPT-4o di CometAPI telah dirilis yang gpt-4o-realtime-preview-2025-06-03 dan gpt-4o-audio-preview-2025-06-03Selamat datang untuk menelepon!

Lihat Juga API GPT-4.1

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%