جون 4، 2025 — اوپن اے آئی نے اپ ڈیٹس کا ایک طاقتور مجموعہ جاری کیا ہے جس کا مقصد یہ انقلاب لانا ہے کہ ڈویلپرز AI ایجنٹوں کو کس طرح بناتے ہیں، خاص طور پر وہ لوگ جو آواز پر مبنی بات چیت کی صلاحیت رکھتے ہیں۔ اپ ڈیٹس متعدد محاذوں پر پھیلے ہوئے ہیں: ایجنٹس SDK میں مکمل ٹائپ اسکرپٹ سپورٹ، ایک ہیومن ان دی لوپ مداخلت کا طریقہ کار، ریئل ٹائم وائس ایپس کے لیے RealtimeAgent کا آغاز، اور OpenAI کے اسپیچ ٹو اسپیچ ماڈل میں نمایاں اضافہ۔
مشترکہ طور پر، یہ اپ ڈیٹس عمارت کو محفوظ، قابل کنٹرول، اور پرکشش AI ایجنٹس کو پہلے سے کہیں زیادہ قابل رسائی بناتے ہیں۔
TypeScript ایجنٹوں SDK پر آتا ہے۔
ویب ایکو سسٹم میں ڈیولپرز کو بااختیار بنانا
OpenAI کے مقبول ایجنٹس SDK اب TypeScript کو سپورٹ کرتا ہے — JavaScript اور Node.js ماحول میں AI ایپلیکیشنز بنانے والے ڈویلپرز کے لیے مضبوط ٹولنگ لاتا ہے۔ TypeScript ورژن اپنے Python ہم منصب کے ساتھ خصوصیت کی برابری فراہم کرتا ہے، تمام ضروری ایجنٹ بنانے والے پرائمیٹوز کو سپورٹ کرتا ہے:
- ہینڈ آفس - متعدد ایجنٹوں میں ہموار کام کی منتقلی۔
- نگرانی - طرز عمل کی پابندیاں اور حفاظتی طریقہ کار
- سراغ لگانا - عمدہ لاگنگ اور تشخیص
- MCP (ملٹی اجزاء پیٹرن) - ماڈیولر، تقسیم شدہ ایجنٹوں کے لیے سپورٹ
یہ کیوں اہم ہے:
ویب ڈویلپرز اب بغیر کسی رکاوٹ کے AI ایجنٹوں کو براؤزرز، ویب ایپس، اور Node.js ماحول میں سرایت کر سکتے ہیں، جو کہ صوتی معاونین، ریئل ٹائم چیٹ بوٹس، اور براؤزر میں کاپیلٹس جیسے تجربات کو فعال کر سکتے ہیں۔
ہیومن ان دی لوپ (HITL) کا جائزہ لینے کا طریقہ کار
محفوظ ایجنٹ کے برتاؤ کے لیے انسانی نگرانی کا تعارف
حفاظت اور جوابدہی کو تقویت دینے کے لیے، OpenAI ایجنٹ کے ورک فلو کے اندر انسانی منظوری کی خصوصیت متعارف کراتا ہے۔ اس سے پہلے کہ کوئی ایجنٹ کچھ بیرونی ٹول کالز یا API کارروائیوں کو انجام دے سکے، انسان رویے کو منظور، انکار یا ایڈجسٹ کرنے کے لیے مداخلت کر سکتا ہے۔
بنیادی ورک فلو:
- ٹول پر عمل درآمد روک دیں۔
- موجودہ ایجنٹ کی حالت کو سیریلائز اور محفوظ کریں۔
- انسانی جائزہ اور منظوری کی درخواست کریں۔
- تصدیق کے بعد ورک فلو کو دوبارہ شروع کریں۔
مثالی:
ایسے معاملات استعمال کریں جن میں زیادہ داؤ شامل ہوں، جیسے کہ مالیاتی لین دین، طبی ڈیٹا کا تجزیہ، یا کسٹمر سروس کے حساس کام۔ یہ طریقہ کار AI فیصلہ سازی میں شفافیت، تعمیل اور اخلاقی تحفظات کو بڑھاتا ہے۔
ریئل ٹائم ایجنٹ: وائس ایجنٹ بنانا اتنا آسان کبھی نہیں تھا۔
اوپن اے آئی کا نیا ریئل ٹائم ایجنٹ صلاحیت ریئل ٹائم API کا فائدہ اٹھاتی ہے تاکہ ڈویلپرز کو مضبوط صوتی ایجنٹس بنا سکیں جو کلائنٹ یا سرور کی طرف کام کرتے ہیں۔
کلیدی خصوصیات:
- ریئل ٹائم اسپیچ ان پٹ اور آؤٹ پٹ
- انٹیگریٹڈ فنکشن/ٹول کالنگ
- رکاوٹوں اور متحرک آڈیو پلے بیک کے لیے سپورٹ
- ہینڈ آف اور گارڈریلز کے ساتھ مطابقت
یہ تبدیلی کیوں ہے:
اب، وائس ایجنٹوں کو ٹیکسٹ ایجنٹس کی طرح تیار کیا جا سکتا ہے — AI ٹولز اور منطق تک مکمل رسائی کے ساتھ۔ یہ اعلی درجے کی ایپلی کیشنز کے لئے دروازہ کھولتا ہے جیسے:
- AI سے چلنے والے وائس سپورٹ سسٹم
- ریئل ٹائم ترجمہ یا ڈکٹیشن ٹولز
- انٹرایکٹو، تقریر کے قابل کردار ادا کرنے والے گیمز
ٹریس ڈیش بورڈ کو وائس سینٹرک اپ گریڈ ملتا ہے۔
صوتی تعامل کے ہر مرحلے کا تصور کرنا
۔ نشانات ڈیبگنگ اور مانیٹرنگ ٹول کو اپ ڈیٹ کیا گیا ہے تاکہ ریئل ٹائم وائس ایجنٹ سیشنز کے بھرپور تصور کو سپورٹ کیا جا سکے۔
ڈیش بورڈ کی نئی صلاحیتیں:
- صارف اور ایجنٹ دونوں کے جوابات کے لیے آڈیو ویوفارمز ڈسپلے کرنا
- لاگنگ ٹول کال کی تاریخ اور ان کے پیرامیٹرز
- رکاوٹ کے نکات کو نمایاں کرنا (مثال کے طور پر، جب صارف وسط جملے میں مداخلت کرتا ہے)
ڈویلپرز کے لیے فوائد: واضح ڈیبگنگ، تیز تر تکرار، اور آواز کے پہلے صارف کے تجربات کی بہتر اصلاح۔
GPT-4o اسپیچ ٹو اسپیچ ماڈل: زیادہ ذہین، زیادہ قدرتی
ہوشیار آواز، بہتر عملدرآمد
GPT-4o اسپیچ ماڈل نے ریئل ٹائم صوتی کاموں میں اپنی تاثیر کو بڑھانے کے لیے وسیع تر اصلاحات کی ہیں:
- مندرجہ ذیل بہتر ہدایات - اعلی درستگی کے ساتھ کمانڈز کو انجام دیتا ہے۔
- زیادہ مستقل ٹول کا استعمال - آلے کی درخواست میں تغیر کو کم کرتا ہے۔
- مداخلت سے نمٹنے میں بہتری - زیادہ ہوشیار وسط ڈائیلاگ ایڈجسٹمنٹ
- سایڈست تقریر کی رفتار - نئی
speedلچکدار آواز آؤٹ پٹ پیسنگ کے لیے پیرامیٹر
دستیاب ماڈل:
gpt-4o-realtime-preview-2025-06-03- ریئل ٹائم API کے لئے آپٹمائزڈgpt-4o-audio-preview-2025-06-03- آڈیو کے ساتھ چیٹ کی تکمیل کے لیے ڈیزائن کیا گیا ہے۔
یہ اپ ڈیٹس AI آوازوں کو زیادہ فطری، زیادہ ذمہ دار، اور ہدایت دینے میں آسان بناتی ہیں— چاہے تیز رفتار نیوز بریفنگ کے لیے ہو یا سست، تدریسی مکالمے کے لیے۔
حتمی خیالات: وائس اے آئی ایجنٹس کے لیے ایک نیا دور
ان چار اپ ڈیٹس کے ساتھ، OpenAI نے AI ایجنٹ کی ترقی کے محاذ کو بڑھانا جاری رکھا ہوا ہے — جس سے ڈویلپرز کے لیے انسان نما ڈیجیٹل معاون تیار کرنا آسان، محفوظ اور زیادہ لچکدار ہے۔
TypeScript سپورٹ، ہیومن-ان-دی-لوپ منظوری، وائس ایجنٹ فریم ورک، اور اپ گریڈ شدہ اسپیچ ماڈلز کا انضمام تمام پلیٹ فارمز اور صنعتوں میں ذہین، انٹرایکٹو، اور سیاق و سباق سے آگاہ ایجنٹوں کو ڈیزائن کرنے کے لیے ایک مکمل ٹول کٹ فراہم کرتا ہے۔
چاہے آپ آواز سے چلنے والا کسٹمر اسسٹنٹ، گیم کریکٹر، یا ایک ورچوئل ٹیوٹر بنا رہے ہوں، OpenAI کے تازہ ترین ٹولز آپ کو پہلے سے کہیں زیادہ تیز اور ہوشیار کام کرنے کی طاقت دیتے ہیں۔
شروع
CometAPI ایک متحد REST انٹرفیس فراہم کرتا ہے جو کہ سیکڑوں AI ماڈلز کو جمع کرتا ہے — بشمول ChatGPT فیملی — ایک مستقل اختتامی نقطہ کے تحت، بلٹ ان API-کی مینجمنٹ، استعمال کوٹہ، اور بلنگ ڈیش بورڈز کے ساتھ۔ متعدد وینڈر یو آر ایل اور اسناد کو جگانے کے بجائے۔
شروع کرنے کے لیے، میں ماڈل کی صلاحیتوں کو دریافت کریں۔ کھیل کے میدان اور مشورہ کریں API گائیڈ تفصیلی ہدایات کے لیے۔ رسائی کرنے سے پہلے، براہ کرم یقینی بنائیں کہ آپ نے CometAPI میں لاگ ان کیا ہے اور API کلید حاصل کر لی ہے۔
CometAPI میں GPT-4o اسپیچ ٹو اسپیچ ماڈل جاری کیا گیا ہے۔ gpt-4o-realtime-preview-2025-06-03 اور gpt-4o-audio-preview-2025-06-03کال کرنے میں خوش آمدید!
یہ بھی دیکھتے ہیں GPT-4.1 API
