GPT 5.1 API คืออะไร GPT-5.1 Thinking เป็นรุ่นการให้เหตุผลขั้นสูงของตระกูล GPT-5.1 ของ OpenAI โดยให้ความสำคัญกับการให้เหตุผลแบบปรับตัวได้ที่มีคุณภาพสูงขึ้น พร้อมมอบการควบคุมอย่างชัดเจนให้แก่นักพัฒนาเหนือการแลกเปลี่ยนระหว่างเวลาแฝง/ทรัพยากรประมวลผล
คุณสมบัติพื้นฐาน
- การให้เหตุผลแบบปรับได้: โมเดลจะปรับระดับความลึกของการคิดตามแต่ละคำขอแบบไดนามิก — เร็วขึ้นกับงานประจำ และยืนหยัดมากขึ้นกับงานที่ซับซ้อน ช่วยลดเวลาแฝงและการใช้โทเค็นสำหรับคำถามทั่วไป จัดสรรเวลาให้เหตุผลมากขึ้นอย่างชัดเจนสำหรับพรอมป์ตที่ซับซ้อน และมีความยืนหยัดมากขึ้นกับปัญหาหลายขั้นตอน; อาจช้าลงสำหรับงานยาก แต่ให้คำตอบที่ลึกกว่า
- โหมดการให้เหตุผล:
none/low/medium/high(GPT-5.1 ตั้งค่าเริ่มต้นเป็นnoneสำหรับกรณีที่ต้องการเวลาแฝงต่ำ; เลือกระดับที่สูงขึ้นสำหรับงานที่ต้องการมากขึ้น) - โทนและสไตล์เริ่มต้น: เขียนให้เข้าใจง่ายขึ้นในหัวข้อซับซ้อน (ใช้นิยามเฉพาะทางน้อยลง) อธิบายมากขึ้นและมีความ “patient”
- Context window (tokens / long context) Thinking: ใหญ่กว่ามาก — บริบท 400K โทเค็นสำหรับผู้ใช้แบบชำระเงิน
รายละเอียดทางเทคนิคสำคัญ
- การจัดสรรการประมวลผลแบบปรับได้ — การออกแบบการฝึกและการอนุมานทำให้โมเดลใช้โทเค็นเพื่อการให้เหตุผลน้อยลงกับงานเล็กๆ และมากขึ้นตามสัดส่วนกับงานที่ยากกว่า นี่ไม่ใช่ “เครื่องมือคิด” แยกต่างหาก แต่เป็นการจัดสรรแบบไดนามิกภายในสายงานให้เหตุผล
- พารามิเตอร์การให้เหตุผลใน Responses API — ไคลเอนต์ส่งอ็อบเจกต์
reasoning(เช่นreasoning: { "effort": "high" }) เพื่อร้องขอการให้เหตุผลภายในที่ลึกขึ้น; การตั้งค่าreasoning: { "effort": "none" }จะปิดการให้เหตุผลภายในแบบขยายเพื่อเวลาแฝงที่ต่ำลง Responses API ยังส่งคืนเมทาดาตาเกี่ยวกับ reasoning/token (เป็นประโยชน์สำหรับต้นทุนและการดีบัก). ) - เครื่องมือและการเรียกใช้เครื่องมือแบบขนาน — GPT-5.1 ปรับปรุงการเรียกเครื่องมือแบบขนานและมีเครื่องมือแบบมีชื่อ (เช่น
apply_patch) ที่ช่วยลดโหมดความล้มเหลวสำหรับการแก้ไขแบบโปรแกรมมิ่ง; การทำงานแบบขนานช่วยเพิ่มอัตราการประมวลผลปลายทางสำหรับเวิร์กโฟลว์ที่ใช้เครื่องมือจำนวนมาก - แคชพรอมป์ตและการคงอยู่ — รองรับ
prompt_cache_retention='24h'บนปลายทาง Responses และ Chat Completions เพื่อคงบริบทข้ามเซสชันหลายเทิร์น (ช่วยลดการเข้ารหัสโทเค็นซ้ำ)
ประสิทธิภาพตามเกณฑ์ทดสอบ
ตัวอย่างเวลาแฝง/ประสิทธิภาพโทเค็น (ผู้ให้บริการระบุ): ในคำถามทั่วไป OpenAI รายงานว่าลดจำนวนโทเค็น/เวลาได้อย่างมาก (ตัวอย่าง: คำสั่ง npm listing ที่ใช้เวลาประมาณ ~10s / ~250 โทเค็นบน GPT-5 ตอนนี้ใช้เวลาประมาณ ~2s / ~50 โทเค็นบน GPT-5.1 ในการทดสอบตัวแทนของพวกเขา) ผู้ทดสอบภายนอกระยะเริ่มต้น (เช่น ผู้จัดการสินทรัพย์ บริษัทโค้ดดิ้ง) รายงานความเร็วเพิ่มขึ้น 2–3 เท่าในหลายงาน และประสิทธิภาพโทเค็นที่ดีขึ้นในโฟลว์ที่ใช้เครื่องมือหนัก
OpenAI และพาร์ทเนอร์รายแรกๆ เผยแพร่คำอ้างอิงเบนช์มาร์กตัวแทนและการวัดปรับปรุงดังนี้:
| การประเมิน | GPT‑5.1 (สูง) | GPT‑5 (สูง) |
|---|---|---|
| SWE-bench Verified (ทั้งหมด 500 ปัญหา) | 76.3% | 72.8% |
| GPQA Diamond (ไม่ใช้เครื่องมือ) | 88.1% | 85.7% |
| AIME 2025 (ไม่ใช้เครื่องมือ) | 94.0% | 94.6% |
| FrontierMath (พร้อมเครื่องมือ Python) | 26.7% | 26.3% |
| MMMU | 85.4% | 84.2% |
| Tau2-bench Airline | 67.0% | 62.6% |
| Tau2-bench Telecom* | 95.6% | 96.7% |
| Tau2-bench Retail | 77.9% | 81.1% |
| BrowseComp Long Context 128k | 90.0% | 90.0% |
ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย
- ความเสี่ยงด้านการมโนยังมีอยู่ การให้เหตุผลแบบปรับได้ช่วยในปัญหาซับซ้อนแต่ไม่กำจัดการมโน; การเพิ่ม
reasoning_effortช่วยการตรวจสอบมากขึ้นแต่ไม่รับประกันความถูกต้อง ควรยืนยันผลลัพธ์ที่มีความเสี่ยงสูงเสมอ - การแลกเปลี่ยนทรัพยากรและต้นทุน: แม้ GPT-5.1 จะใช้โทเค็นได้มีประสิทธิภาพกว่าสำหรับโฟลว์ง่ายๆ แต่การเปิดโหมดการให้เหตุผลระดับสูงหรือการใช้เครื่องมือแบบตัวแทนยาวนานอาจเพิ่มการใช้โทเค็นและเวลาแฝง ใช้แคชพรอมป์ตเพื่อลดต้นทุนซ้ำเมื่อเหมาะสม
- ความปลอดภัยของเครื่องมือ: เครื่องมือ
apply_patchและshellเพิ่มพลังการอัตโนมัติ (และความเสี่ยง) การใช้งานจริงควรมีการอนุญาตให้รันเครื่องมืออย่างรอบคอบ (ทบทวน diff/คำสั่งก่อนรัน) ใช้สิทธิ์น้อยที่สุด และมี CI/CD และรั้วความปลอดภัยการปฏิบัติการที่แข็งแรง
การเปรียบเทียบกับโมเดลอื่น
- เทียบกับ GPT-5: GPT-5.1 ปรับปรุงการให้เหตุผลแบบปรับได้และการยึดตามคำสั่ง; OpenAI รายงานเวลาตอบสนองที่เร็วขึ้นในงานง่าย และความยืนหยัดที่ดีกว่าในงานยาก นอกจากนี้ GPT-5.1 ยังเพิ่มตัวเลือกการให้เหตุผลแบบ
noneและการแคชพรอมป์ตแบบขยาย - เทียบกับ GPT-4.x / 4.1: GPT-5.1 ออกแบบมาสำหรับงานเชิงตัวแทน ใช้เครื่องมือหนัก และงานโค้ดดิ้ง; OpenAI และพาร์ทเนอร์รายงานผลลัพธ์ที่ดีขึ้นบนเบนช์มาร์กโค้ดดิ้งและการให้เหตุผลหลายขั้นตอน สำหรับงานสนทนาทั่วไป GPT-5.1 Instant อาจเทียบเคียงโมเดลแชท GPT-4.x รุ่นก่อน แต่มีความสามารถในการกำกับทิศทางและพรีเซ็ตบุคลิกที่ดีขึ้น
- เทียบกับ Anthropic / Claude / LLM อื่นๆ: สถาปัตยกรรม MoA ของ ChatGPT 5.1 ให้ความได้เปรียบชัดเจนในงานที่ต้องการการให้เหตุผลซับซ้อน ได้คะแนน 98.20 อย่างไม่เคยมีมาก่อนบนเบนช์มาร์ก HELM สำหรับการให้เหตุผลเชิงซับซ้อน เทียบกับ Claude 4 ที่ 95.60 และ Gemini 2.0 Ultra ที่ 94.80