มิถุนายน 4, 2025 OpenAI ได้เปิดตัวชุดอัปเดตอันทรงพลังที่มุ่งหวังที่จะปฏิวัติวิธีการที่นักพัฒนาสร้างเอเจนต์ AI โดยเฉพาะเอเจนต์ที่มีความสามารถในการโต้ตอบด้วยเสียง การอัปเดตครอบคลุมหลายด้าน ได้แก่ การรองรับ TypeScript เต็มรูปแบบใน Agents SDK กลไกการแทรกแซงแบบ human-in-the-loop การเปิดตัว RealtimeAgent สำหรับแอปเสียงแบบเรียลไทม์ และการปรับปรุงที่สำคัญสำหรับโมเดลการแปลงคำพูดเป็นคำพูดของ OpenAI
เมื่อนำมารวมกันแล้ว การอัปเดตเหล่านี้ทำให้การสร้างตัวแทน AI ที่ปลอดภัย ควบคุมได้ และมีส่วนร่วมได้ง่ายกว่าที่เคย
TypeScript มาถึง Agents SDK แล้ว
การส่งเสริมศักยภาพนักพัฒนาในระบบนิเวศเว็บ
ตอนนี้ Agents SDK ยอดนิยมของ OpenAI รองรับ TypeScript แล้ว โดยนำเครื่องมืออันแข็งแกร่งมาสู่ผู้พัฒนาที่สร้างแอปพลิเคชัน AI ในสภาพแวดล้อม JavaScript และ Node.js เวอร์ชัน TypeScript มอบความเท่าเทียมของฟีเจอร์กับเวอร์ชัน Python โดยรองรับไพรมิทีฟการสร้างเอเจนต์ที่จำเป็นทั้งหมด:
- แฮนด์ออฟ – การโอนงานที่ราบรื่นระหว่างตัวแทนหลายราย
- guardrails – ข้อจำกัดด้านพฤติกรรมและกลไกด้านความปลอดภัย
- การติดตาม – การบันทึกและการวินิจฉัยแบบละเอียด
- MCP (รูปแบบหลายส่วนประกอบ) – รองรับตัวแทนแบบกระจายโมดูลาร์
ทำไมถึงสำคัญ:
ตอนนี้นักพัฒนาเว็บสามารถฝังเอเจนต์ AI ลงในเบราว์เซอร์ แอปบนเว็บ และสภาพแวดล้อม Node.js ได้อย่างราบรื่น ช่วยให้เกิดประสบการณ์ต่างๆ เช่น ผู้ช่วยเสียง แชทบอทแบบเรียลไทม์ และผู้ช่วยนักบินในเบราว์เซอร์
กลไกการตรวจสอบแบบ Human-in-the-Loop (HITL)
การแนะนำการควบคุมดูแลโดยมนุษย์สำหรับพฤติกรรมของตัวแทนที่ปลอดภัยยิ่งขึ้น
เพื่อเพิ่มความปลอดภัยและความรับผิดชอบ OpenAI ได้แนะนำฟีเจอร์การอนุมัติโดยมนุษย์ภายในเวิร์กโฟลว์ของตัวแทน ก่อนที่ตัวแทนจะดำเนินการเรียกเครื่องมือภายนอกหรือการดำเนินการ API บางอย่าง มนุษย์สามารถแทรกแซงเพื่ออนุมัติ ปฏิเสธ หรือปรับเปลี่ยนพฤติกรรมได้
เวิร์กโฟลว์หลัก:
- หยุดการทำงานของเครื่องมือชั่วคราว
- เรียงลำดับและบันทึกสถานะตัวแทนปัจจุบัน
- ขอการตรวจสอบและอนุมัติจากมนุษย์
- ดำเนินการเวิร์กโฟลว์ต่อหลังจากได้รับการยืนยัน
เหมาะสำหรับ:
กรณีการใช้งานที่เกี่ยวข้องกับความเสี่ยงสูง เช่น ธุรกรรมทางการเงิน การวิเคราะห์ข้อมูลทางการแพทย์ หรือภารกิจบริการลูกค้าที่ละเอียดอ่อน กลไกนี้ช่วยเพิ่มความโปร่งใส การปฏิบัติตาม และการป้องกันทางจริยธรรมในการตัดสินใจด้าน AI
RealtimeAgent: การสร้างตัวแทนเสียงไม่เคยง่ายอย่างนี้มาก่อน
OpenAI ใหม่ ตัวแทนเรียลไทม์ ความสามารถใช้ประโยชน์จาก Realtime API เพื่อให้ผู้พัฒนาสามารถสร้างตัวแทนเสียงที่แข็งแกร่งที่ทำงานบนฝั่งไคลเอ็นต์หรือฝั่งเซิร์ฟเวอร์ได้
คุณสมบัติเด่น:
- การป้อนและส่งออกคำพูดแบบเรียลไทม์
- การเรียกใช้ฟังก์ชัน/เครื่องมือแบบบูรณาการ
- รองรับการขัดจังหวะและการเล่นเสียงไดนามิก
- ความเข้ากันได้กับแฮนด์ออฟและราวกั้น
เหตุใดจึงเกิดการเปลี่ยนแปลง:
ปัจจุบัน ตัวแทนเสียงสามารถพัฒนาได้เช่นเดียวกับตัวแทนข้อความ โดยสามารถเข้าถึงเครื่องมือและตรรกะของ AI ได้อย่างเต็มที่ ซึ่งจะเปิดโอกาสให้มีแอปพลิเคชันขั้นสูง เช่น:
- ระบบสนับสนุนเสียงที่ขับเคลื่อนด้วย AI
- เครื่องมือแปลหรือสั่งงานด้วยเสียงแบบเรียลไทม์
- เกมเล่นตามบทบาทแบบโต้ตอบที่สามารถใช้คำพูดได้
Traces Dashboard ได้รับการอัปเกรดให้เน้นที่เสียง
การสร้างภาพทุกขั้นตอนของการโต้ตอบด้วยเสียง
การขอ ร่องรอย เครื่องมือแก้ไขข้อบกพร่องและการตรวจสอบได้รับการอัปเดตเพื่อรองรับการแสดงภาพที่สมบูรณ์ของเซสชันตัวแทนเสียงแบบเรียลไทม์
ความสามารถของแดชบอร์ดใหม่:
- การแสดงคลื่นเสียงสำหรับการตอบสนองทั้งของผู้ใช้และตัวแทน
- ประวัติการเรียกใช้เครื่องมือบันทึกและพารามิเตอร์ต่างๆ
- การเน้นจุดขัดจังหวะ (เช่น เมื่อผู้ใช้แทรกกลางประโยค)
สิทธิประโยชน์สำหรับนักพัฒนา: การแก้ไขจุดบกพร่องที่ชัดเจนยิ่งขึ้น การวนซ้ำที่รวดเร็วยิ่งขึ้น และการปรับแต่งประสบการณ์ผู้ใช้ที่เน้นเสียงให้ดียิ่งขึ้น
รุ่น GPT-4o Speech-to-Speech: ชาญฉลาดมากขึ้น เป็นธรรมชาติมากขึ้น
เสียงที่ชาญฉลาดกว่า การดำเนินการที่ได้รับการปรับปรุง
โมเดลการพูด GPT-4o ได้รับการปรับปรุงอย่างกว้างขวางเพื่อเพิ่มประสิทธิภาพในการทำงานเสียงแบบเรียลไทม์:
- การปฏิบัติตามคำแนะนำที่ดีขึ้น – ดำเนินการคำสั่งด้วยความแม่นยำสูงขึ้น
- การใช้เครื่องมือมีความสม่ำเสมอมากขึ้น – ลดความแปรปรวนในการเรียกใช้เครื่องมือ
- การจัดการการขัดจังหวะที่ได้รับการปรับปรุง – ปรับแต่งบทสนทนากลางได้อย่างชาญฉลาดมากขึ้น
- ความเร็วในการพูดปรับได้ - ใหม่
speedพารามิเตอร์สำหรับการกำหนดจังหวะเอาต์พุตเสียงที่ยืดหยุ่น
รุ่นที่มีจำหน่าย:
gpt-4o-realtime-preview-2025-06-03– ปรับให้เหมาะสมสำหรับ API แบบเรียลไทม์gpt-4o-audio-preview-2025-06-03– ออกแบบมาสำหรับการแชทด้วยเสียง
การอัพเดตเหล่านี้ทำให้เสียง AI เป็นธรรมชาติมากขึ้น ตอบสนองได้ดีขึ้น และง่ายต่อการกำหนดทิศทาง ไม่ว่าจะเป็นการสรุปข่าวที่รวดเร็วหรือบทสนทนาให้คำแนะนำที่ช้าๆ
ความคิดสุดท้าย: ยุคใหม่ของตัวแทน AI เสียง
ด้วยการอัปเดตทั้งสี่ครั้งนี้ OpenAI ยังคงขยายขอบเขตการพัฒนาตัวแทน AI ต่อไป ทำให้นักพัฒนาสามารถสร้างผู้ช่วยดิจิทัลที่เหมือนมนุษย์ได้ง่ายขึ้น ปลอดภัยขึ้น และยืดหยุ่นมากขึ้น
การผสานรวมการรองรับ TypeScript การอนุมัติแบบ human-in-the-loop เฟรมเวิร์กตัวแทนเสียง และโมเดลการพูดที่ได้รับการอัพเกรดมอบชุดเครื่องมือที่ครบครันสำหรับการออกแบบตัวแทนที่ชาญฉลาด โต้ตอบได้ และตระหนักถึงบริบทในทุกแพลตฟอร์มและอุตสาหกรรม
ไม่ว่าคุณจะกำลังสร้างผู้ช่วยลูกค้าที่สั่งการด้วยเสียง ตัวละครในเกม หรือติวเตอร์เสมือนจริง เครื่องมือล่าสุดของ OpenAI จะช่วยให้คุณทำสิ่งต่างๆ ได้เร็วขึ้น—และฉลาดขึ้น—มากกว่าที่เคย
เริ่มต้นใช้งาน
CometAPI มอบอินเทอร์เฟซ REST แบบรวมที่รวบรวมโมเดล AI หลายร้อยโมเดล รวมถึงกลุ่ม ChatGPT ภายใต้จุดสิ้นสุดที่สอดคล้องกัน พร้อมการจัดการคีย์ API ในตัว โควตาการใช้งาน และแดชบอร์ดการเรียกเก็บเงิน แทนที่จะต้องจัดการ URL และข้อมูลรับรองของผู้ขายหลายราย
ในการเริ่มต้น ให้สำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว
แบบจำลองการพูดต่อคำพูด GPT-4o ใน CometAPI ได้เปิดตัวแล้ว gpt-4o-realtime-preview-2025-06-03 และ gpt-4o-audio-preview-2025-06-03ยินดีต้อนรับการโทร!
ดูเพิ่มเติม GPT-4.1 API
