GPT 5.1 API คืออะไร GPT-5.1 Thinking เป็นรุ่นการให้เหตุผลขั้นสูงของตระกูล GPT-5.1 ของ OpenAI โดยให้ความสำคัญกับการให้เหตุผลแบบปรับตัวได้ที่มีคุณภาพสูงขึ้น พร้อมมอบการควบคุมอย่างชัดเจนให้แก่นักพัฒนาเหนือการแลกเปลี่ยนระหว่างเวลาแฝง/ทรัพยากรประมวลผล

คุณสมบัติพื้นฐาน

การให้เหตุผลแบบปรับได้: โมเดลจะปรับระดับความลึกของการคิดตามแต่ละคำขอแบบไดนามิก — เร็วขึ้นกับงานประจำ และยืนหยัดมากขึ้นกับงานที่ซับซ้อน ช่วยลดเวลาแฝงและการใช้โทเค็นสำหรับคำถามทั่วไป จัดสรรเวลาให้เหตุผลมากขึ้นอย่างชัดเจนสำหรับพรอมป์ตที่ซับซ้อน และมีความยืนหยัดมากขึ้นกับปัญหาหลายขั้นตอน; อาจช้าลงสำหรับงานยาก แต่ให้คำตอบที่ลึกกว่า
โหมดการให้เหตุผล: none / low / medium / high (GPT-5.1 ตั้งค่าเริ่มต้นเป็น none สำหรับกรณีที่ต้องการเวลาแฝงต่ำ; เลือกระดับที่สูงขึ้นสำหรับงานที่ต้องการมากขึ้น)
โทนและสไตล์เริ่มต้น: เขียนให้เข้าใจง่ายขึ้นในหัวข้อซับซ้อน (ใช้นิยามเฉพาะทางน้อยลง) อธิบายมากขึ้นและมีความ “patient”
Context window (tokens / long context) Thinking: ใหญ่กว่ามาก — บริบท 400K โทเค็นสำหรับผู้ใช้แบบชำระเงิน

รายละเอียดทางเทคนิคสำคัญ

การจัดสรรการประมวลผลแบบปรับได้ — การออกแบบการฝึกและการอนุมานทำให้โมเดลใช้โทเค็นเพื่อการให้เหตุผลน้อยลงกับงานเล็กๆ และมากขึ้นตามสัดส่วนกับงานที่ยากกว่า นี่ไม่ใช่ “เครื่องมือคิด” แยกต่างหาก แต่เป็นการจัดสรรแบบไดนามิกภายในสายงานให้เหตุผล
พารามิเตอร์การให้เหตุผลใน Responses API — ไคลเอนต์ส่งอ็อบเจกต์ reasoning (เช่น reasoning: { "effort": "high" }) เพื่อร้องขอการให้เหตุผลภายในที่ลึกขึ้น; การตั้งค่า reasoning: { "effort": "none" } จะปิดการให้เหตุผลภายในแบบขยายเพื่อเวลาแฝงที่ต่ำลง Responses API ยังส่งคืนเมทาดาตาเกี่ยวกับ reasoning/token (เป็นประโยชน์สำหรับต้นทุนและการดีบัก). )
เครื่องมือและการเรียกใช้เครื่องมือแบบขนาน — GPT-5.1 ปรับปรุงการเรียกเครื่องมือแบบขนานและมีเครื่องมือแบบมีชื่อ (เช่น apply_patch) ที่ช่วยลดโหมดความล้มเหลวสำหรับการแก้ไขแบบโปรแกรมมิ่ง; การทำงานแบบขนานช่วยเพิ่มอัตราการประมวลผลปลายทางสำหรับเวิร์กโฟลว์ที่ใช้เครื่องมือจำนวนมาก
แคชพรอมป์ตและการคงอยู่ — รองรับ prompt_cache_retention='24h' บนปลายทาง Responses และ Chat Completions เพื่อคงบริบทข้ามเซสชันหลายเทิร์น (ช่วยลดการเข้ารหัสโทเค็นซ้ำ)

ประสิทธิภาพตามเกณฑ์ทดสอบ

ตัวอย่างเวลาแฝง/ประสิทธิภาพโทเค็น (ผู้ให้บริการระบุ): ในคำถามทั่วไป OpenAI รายงานว่าลดจำนวนโทเค็น/เวลาได้อย่างมาก (ตัวอย่าง: คำสั่ง npm listing ที่ใช้เวลาประมาณ ~10s / ~250 โทเค็นบน GPT-5 ตอนนี้ใช้เวลาประมาณ ~2s / ~50 โทเค็นบน GPT-5.1 ในการทดสอบตัวแทนของพวกเขา) ผู้ทดสอบภายนอกระยะเริ่มต้น (เช่น ผู้จัดการสินทรัพย์ บริษัทโค้ดดิ้ง) รายงานความเร็วเพิ่มขึ้น 2–3 เท่าในหลายงาน และประสิทธิภาพโทเค็นที่ดีขึ้นในโฟลว์ที่ใช้เครื่องมือหนัก

OpenAI และพาร์ทเนอร์รายแรกๆ เผยแพร่คำอ้างอิงเบนช์มาร์กตัวแทนและการวัดปรับปรุงดังนี้:

การประเมิน	GPT‑5.1 (สูง)	GPT‑5 (สูง)
SWE-bench Verified (ทั้งหมด 500 ปัญหา)	76.3%	72.8%
GPQA Diamond (ไม่ใช้เครื่องมือ)	88.1%	85.7%
AIME 2025 (ไม่ใช้เครื่องมือ)	94.0%	94.6%
FrontierMath (พร้อมเครื่องมือ Python)	26.7%	26.3%
MMMU	85.4%	84.2%
Tau2-bench Airline	67.0%	62.6%
Tau2-bench Telecom*	95.6%	96.7%
Tau2-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย

ความเสี่ยงด้านการมโนยังมีอยู่ การให้เหตุผลแบบปรับได้ช่วยในปัญหาซับซ้อนแต่ไม่กำจัดการมโน; การเพิ่ม reasoning_effort ช่วยการตรวจสอบมากขึ้นแต่ไม่รับประกันความถูกต้อง ควรยืนยันผลลัพธ์ที่มีความเสี่ยงสูงเสมอ
การแลกเปลี่ยนทรัพยากรและต้นทุน: แม้ GPT-5.1 จะใช้โทเค็นได้มีประสิทธิภาพกว่าสำหรับโฟลว์ง่ายๆ แต่การเปิดโหมดการให้เหตุผลระดับสูงหรือการใช้เครื่องมือแบบตัวแทนยาวนานอาจเพิ่มการใช้โทเค็นและเวลาแฝง ใช้แคชพรอมป์ตเพื่อลดต้นทุนซ้ำเมื่อเหมาะสม
ความปลอดภัยของเครื่องมือ: เครื่องมือ apply_patch และ shell เพิ่มพลังการอัตโนมัติ (และความเสี่ยง) การใช้งานจริงควรมีการอนุญาตให้รันเครื่องมืออย่างรอบคอบ (ทบทวน diff/คำสั่งก่อนรัน) ใช้สิทธิ์น้อยที่สุด และมี CI/CD และรั้วความปลอดภัยการปฏิบัติการที่แข็งแรง

การเปรียบเทียบกับโมเดลอื่น

เทียบกับ GPT-5: GPT-5.1 ปรับปรุงการให้เหตุผลแบบปรับได้และการยึดตามคำสั่ง; OpenAI รายงานเวลาตอบสนองที่เร็วขึ้นในงานง่าย และความยืนหยัดที่ดีกว่าในงานยาก นอกจากนี้ GPT-5.1 ยังเพิ่มตัวเลือกการให้เหตุผลแบบ none และการแคชพรอมป์ตแบบขยาย
เทียบกับ GPT-4.x / 4.1: GPT-5.1 ออกแบบมาสำหรับงานเชิงตัวแทน ใช้เครื่องมือหนัก และงานโค้ดดิ้ง; OpenAI และพาร์ทเนอร์รายงานผลลัพธ์ที่ดีขึ้นบนเบนช์มาร์กโค้ดดิ้งและการให้เหตุผลหลายขั้นตอน สำหรับงานสนทนาทั่วไป GPT-5.1 Instant อาจเทียบเคียงโมเดลแชท GPT-4.x รุ่นก่อน แต่มีความสามารถในการกำกับทิศทางและพรีเซ็ตบุคลิกที่ดีขึ้น
เทียบกับ Anthropic / Claude / LLM อื่นๆ: สถาปัตยกรรม MoA ของ ChatGPT 5.1 ให้ความได้เปรียบชัดเจนในงานที่ต้องการการให้เหตุผลซับซ้อน ได้คะแนน 98.20 อย่างไม่เคยมีมาก่อนบนเบนช์มาร์ก HELM สำหรับการให้เหตุผลเชิงซับซ้อน เทียบกับ Claude 4 ที่ 95.60 และ Gemini 2.0 Ultra ที่ 94.80

คุณสมบัติพื้นฐาน

การให้เหตุผลแบบปรับได้: โมเดลจะปรับระดับความลึกของการคิดตามแต่ละคำขอแบบไดนามิก — เร็วขึ้นกับงานประจำ และยืนหยัดมากขึ้นกับงานที่ซับซ้อน ช่วยลดเวลาแฝงและการใช้โทเค็นสำหรับคำถามทั่วไป จัดสรรเวลาให้เหตุผลมากขึ้นอย่างชัดเจนสำหรับพรอมป์ตที่ซับซ้อน และมีความยืนหยัดมากขึ้นกับปัญหาหลายขั้นตอน; อาจช้าลงสำหรับงานยาก แต่ให้คำตอบที่ลึกกว่า
โหมดการให้เหตุผล: none / low / medium / high (GPT-5.1 ตั้งค่าเริ่มต้นเป็น none สำหรับกรณีที่ต้องการเวลาแฝงต่ำ; เลือกระดับที่สูงขึ้นสำหรับงานที่ต้องการมากขึ้น)
โทนและสไตล์เริ่มต้น: เขียนให้เข้าใจง่ายขึ้นในหัวข้อซับซ้อน (ใช้นิยามเฉพาะทางน้อยลง) อธิบายมากขึ้นและมีความ “patient”
Context window (tokens / long context) Thinking: ใหญ่กว่ามาก — บริบท 400K โทเค็นสำหรับผู้ใช้แบบชำระเงิน

รายละเอียดทางเทคนิคสำคัญ

การจัดสรรการประมวลผลแบบปรับได้ — การออกแบบการฝึกและการอนุมานทำให้โมเดลใช้โทเค็นเพื่อการให้เหตุผลน้อยลงกับงานเล็กๆ และมากขึ้นตามสัดส่วนกับงานที่ยากกว่า นี่ไม่ใช่ “เครื่องมือคิด” แยกต่างหาก แต่เป็นการจัดสรรแบบไดนามิกภายในสายงานให้เหตุผล
พารามิเตอร์การให้เหตุผลใน Responses API — ไคลเอนต์ส่งอ็อบเจกต์ reasoning (เช่น reasoning: { "effort": "high" }) เพื่อร้องขอการให้เหตุผลภายในที่ลึกขึ้น; การตั้งค่า reasoning: { "effort": "none" } จะปิดการให้เหตุผลภายในแบบขยายเพื่อเวลาแฝงที่ต่ำลง Responses API ยังส่งคืนเมทาดาตาเกี่ยวกับ reasoning/token (เป็นประโยชน์สำหรับต้นทุนและการดีบัก). )
เครื่องมือและการเรียกใช้เครื่องมือแบบขนาน — GPT-5.1 ปรับปรุงการเรียกเครื่องมือแบบขนานและมีเครื่องมือแบบมีชื่อ (เช่น apply_patch) ที่ช่วยลดโหมดความล้มเหลวสำหรับการแก้ไขแบบโปรแกรมมิ่ง; การทำงานแบบขนานช่วยเพิ่มอัตราการประมวลผลปลายทางสำหรับเวิร์กโฟลว์ที่ใช้เครื่องมือจำนวนมาก
แคชพรอมป์ตและการคงอยู่ — รองรับ prompt_cache_retention='24h' บนปลายทาง Responses และ Chat Completions เพื่อคงบริบทข้ามเซสชันหลายเทิร์น (ช่วยลดการเข้ารหัสโทเค็นซ้ำ)

ประสิทธิภาพตามเกณฑ์ทดสอบ

การประเมิน	GPT‑5.1 (สูง)	GPT‑5 (สูง)
SWE-bench Verified (ทั้งหมด 500 ปัญหา)	76.3%	72.8%
GPQA Diamond (ไม่ใช้เครื่องมือ)	88.1%	85.7%
AIME 2025 (ไม่ใช้เครื่องมือ)	94.0%	94.6%
FrontierMath (พร้อมเครื่องมือ Python)	26.7%	26.3%
MMMU	85.4%	84.2%
Tau2-bench Airline	67.0%	62.6%
Tau2-bench Telecom*	95.6%	96.7%
Tau2-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย

ความเสี่ยงด้านการมโนยังมีอยู่ การให้เหตุผลแบบปรับได้ช่วยในปัญหาซับซ้อนแต่ไม่กำจัดการมโน; การเพิ่ม reasoning_effort ช่วยการตรวจสอบมากขึ้นแต่ไม่รับประกันความถูกต้อง ควรยืนยันผลลัพธ์ที่มีความเสี่ยงสูงเสมอ
การแลกเปลี่ยนทรัพยากรและต้นทุน: แม้ GPT-5.1 จะใช้โทเค็นได้มีประสิทธิภาพกว่าสำหรับโฟลว์ง่ายๆ แต่การเปิดโหมดการให้เหตุผลระดับสูงหรือการใช้เครื่องมือแบบตัวแทนยาวนานอาจเพิ่มการใช้โทเค็นและเวลาแฝง ใช้แคชพรอมป์ตเพื่อลดต้นทุนซ้ำเมื่อเหมาะสม
ความปลอดภัยของเครื่องมือ: เครื่องมือ apply_patch และ shell เพิ่มพลังการอัตโนมัติ (และความเสี่ยง) การใช้งานจริงควรมีการอนุญาตให้รันเครื่องมืออย่างรอบคอบ (ทบทวน diff/คำสั่งก่อนรัน) ใช้สิทธิ์น้อยที่สุด และมี CI/CD และรั้วความปลอดภัยการปฏิบัติการที่แข็งแรง

การเปรียบเทียบกับโมเดลอื่น

เทียบกับ GPT-5: GPT-5.1 ปรับปรุงการให้เหตุผลแบบปรับได้และการยึดตามคำสั่ง; OpenAI รายงานเวลาตอบสนองที่เร็วขึ้นในงานง่าย และความยืนหยัดที่ดีกว่าในงานยาก นอกจากนี้ GPT-5.1 ยังเพิ่มตัวเลือกการให้เหตุผลแบบ none และการแคชพรอมป์ตแบบขยาย
เทียบกับ GPT-4.x / 4.1: GPT-5.1 ออกแบบมาสำหรับงานเชิงตัวแทน ใช้เครื่องมือหนัก และงานโค้ดดิ้ง; OpenAI และพาร์ทเนอร์รายงานผลลัพธ์ที่ดีขึ้นบนเบนช์มาร์กโค้ดดิ้งและการให้เหตุผลหลายขั้นตอน สำหรับงานสนทนาทั่วไป GPT-5.1 Instant อาจเทียบเคียงโมเดลแชท GPT-4.x รุ่นก่อน แต่มีความสามารถในการกำกับทิศทางและพรีเซ็ตบุคลิกที่ดีขึ้น
เทียบกับ Anthropic / Claude / LLM อื่นๆ: สถาปัตยกรรม MoA ของ ChatGPT 5.1 ให้ความได้เปรียบชัดเจนในงานที่ต้องการการให้เหตุผลซับซ้อน ได้คะแนน 98.20 อย่างไม่เคยมีมาก่อนบนเบนช์มาร์ก HELM สำหรับการให้เหตุผลเชิงซับซ้อน เทียบกับ Claude 4 ที่ 95.60 และ Gemini 2.0 Ultra ที่ 94.80

GPT-5.1

คุณสมบัติพื้นฐาน

รายละเอียดทางเทคนิคสำคัญ

ประสิทธิภาพตามเกณฑ์ทดสอบ

ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย

การเปรียบเทียบกับโมเดลอื่น

คุณสมบัติสำหรับ GPT-5.1

ราคาสำหรับ GPT-5.1

โค้ดตัวอย่างและ API สำหรับ GPT-5.1

โมเดลเพิ่มเติม

GPT-5.1

คุณสมบัติพื้นฐาน

รายละเอียดทางเทคนิคสำคัญ

ประสิทธิภาพตามเกณฑ์ทดสอบ

ข้อจำกัดและข้อพิจารณาด้านความปลอดภัย

การเปรียบเทียบกับโมเดลอื่น

คุณสมบัติสำหรับ GPT-5.1

ราคาสำหรับ GPT-5.1

โค้ดตัวอย่างและ API สำหรับ GPT-5.1

โมเดลเพิ่มเติม