GPT 5.1 API — GPT-5.1 Thinking ialah varian penaakulan lanjutan dalam keluarga GPT-5.1 oleh OpenAI, ia mengutamakan penaakulan adaptif berkualiti lebih tinggi sambil memberi pembangun kawalan jelas terhadap kompromi latensi/komputasi.
Basic features
- Penaakulan adaptif: model melaras secara dinamik kedalaman pemikiran bagi setiap permintaan — lebih pantas untuk tugas rutin, lebih berterusan untuk yang kompleks. Ini mengurangkan latensi dan penggunaan token bagi pertanyaan biasa. Secara eksplisit memperuntukkan lebih masa penaakulan untuk arahan yang kompleks, dan lebih tekal pada masalah berbilang langkah; mungkin lebih perlahan untuk tugas sukar tetapi memberikan jawapan lebih mendalam.
- Mod penaakulan:
none/low/medium/high(GPT-5.1 lalai kepadanoneuntuk kes latensi rendah; pilih tahap lebih tinggi untuk tugas yang lebih menuntut). Responses API menyediakan parameterreasoninguntuk mengawalnya. - Nada & gaya lalai: ditulis agar lebih jelas untuk topik kompleks (kurang jargon), lebih menerangkan dan “sabar.”
- Tetingkap konteks (token / konteks panjang) Thinking: jauh lebih besar — konteks 400K token untuk peringkat berbayar.
Key technical details
- Peruntukan komputasi adaptif — reka bentuk latihan dan inferens menyebabkan model menggunakan lebih sedikit token penaakulan bagi tugas remeh dan secara berkadar lebih banyak untuk tugas sukar. Ini bukan “enjin pemikiran” yang berasingan tetapi peruntukan dinamik dalam saluran penaakulan.
- Parameter penaakulan dalam Responses API — klien menghantar objek
reasoning(contohnyareasoning: { "effort": "high" }) untuk meminta penaakulan dalaman yang lebih mendalam; setreasoning: { "effort": "none" }pada asasnya melumpuhkan lelaran penaakulan dalaman lanjutan bagi latensi lebih rendah. Responses API juga memulangkan metadata penaakulan/token (berguna untuk kos dan nyahpepijat). ) - Alat & panggilan alat selari — GPT-5.1 memperbaiki panggilan alat selari dan menyertakan alat bernama (seperti
apply_patch) yang mengurangkan mod kegagalan bagi suntingan berprogram; penyelarian meningkatkan throughput hujung-ke-hujung untuk aliran kerja yang banyak alat. - Cache prompt dan persistensi —
prompt_cache_retention='24h'disokong pada endpoint Responses dan Chat Completions untuk mengekalkan konteks merentasi sesi berbilang pusingan (mengurangkan pengekodan token berulang).
Benchmark performance
Contoh latensi / kecekapan token (disediakan vendor): pada pertanyaan rutin, OpenAI melaporkan pengurangan dramatik masa/token (contoh: perintah penyenaraian npm yang mengambil ~10s / ~250 token pada GPT-5 kini mengambil ~2s / ~50 token pada GPT-5.1 dalam ujian representatif mereka). Penguji awal pihak ketiga (cth., pengurus aset, firma pengkodan) melaporkan peningkatan kelajuan 2–3× bagi banyak tugas dan peningkatan kecekapan token dalam aliran kerja yang berat alat.
OpenAI dan rakan awal menerbitkan tuntutan penanda aras representatif dan penambahbaikan yang diukur:
| Penilaian | GPT‑5.1 (tinggi) | GPT‑5 (tinggi) |
|---|---|---|
| SWE-bench Verified (all 500 problems) | 76.3% | 72.8% |
| GPQA Diamond (no tools) | 88.1% | 85.7% |
| AIME 2025 (no tools) | 94.0% | 94.6% |
| FrontierMath (with Python tool) | 26.7% | 26.3% |
| MMMU | 85.4% | 84.2% |
| Tau2-bench Airline | 67.0% | 62.6% |
| Tau2-bench Telecom* | 95.6% | 96.7% |
| Tau2-bench Retail | 77.9% | 81.1% |
| BrowseComp Long Context 128k | 90.0% | 90.0% |
Limitations & safety considerations
- Risiko halusinasi masih wujud. Penaakulan adaptif membantu pada masalah kompleks tetapi tidak menghapuskan halusinasi;
reasoning_effortyang lebih tinggi memperbaiki semakan tetapi tidak menjamin ketepatan. Sentiasa sahkan output berisiko tinggi. - Kompromi sumber dan kos: walaupun GPT-5.1 jauh lebih cekap token pada aliran mudah, mendayakan usaha penaakulan tinggi atau penggunaan alat berasaskan agen yang panjang boleh meningkatkan penggunaan token dan latensi. Gunakan cache prompt untuk mengurangkan kos berulang apabila sesuai.
- Keselamatan alat: alat
apply_patchdanshellmeningkatkan kuasa automasi (dan risiko). Pengeluaran produksi harus mengawal pelaksanaan alat (semak diff/perintah sebelum dilaksanakan), gunakan keistimewaan minimum, dan pastikan pagar keselamatan operasi serta CI/CD yang teguh.
Comparison with other models
- vs GPT-5: GPT-5.1 menambah baik penaakulan adaptif dan pematuhan arahan; OpenAI melaporkan masa respons lebih pantas pada tugas mudah dan ketekalan lebih baik pada tugas sukar. GPT-5.1 juga menambah pilihan penaakulan
nonedan cache prompt lanjutan. - vs GPT-4.x / 4.1: GPT-5.1 direka untuk tugas yang lebih berasaskan agen, berat alat, dan pengkodan; OpenAI dan rakan melaporkan peningkatan pada penanda aras pengkodan dan penaakulan berbilang langkah. Untuk banyak tugas perbualan standard, GPT-5.1 Instant mungkin setanding dengan model sembang GPT-4.x terdahulu tetapi dengan keboleharah dan pratetap personaliti yang dipertingkat.
- vs Anthropic / Claude / other LLMs: ChatGPT 5.1′;s senibina MoA memberikannya kelebihan tersendiri dalam tugas yang memerlukan penaakulan kompleks dan berbilang langkah. Ia mencatat 98.20 yang belum pernah dicapai pada penanda aras HELM untuk penaakulan kompleks, berbanding 95.60 bagi Claude 4 dan 94.80 bagi Gemini 2.0 Ultra.