GPT 5.1 API — GPT-5.1 Thinking ialah varian penaakulan lanjutan dalam keluarga GPT-5.1 oleh OpenAI, ia mengutamakan penaakulan adaptif berkualiti lebih tinggi sambil memberi pembangun kawalan jelas terhadap kompromi latensi/komputasi.

Basic features

Penaakulan adaptif: model melaras secara dinamik kedalaman pemikiran bagi setiap permintaan — lebih pantas untuk tugas rutin, lebih berterusan untuk yang kompleks. Ini mengurangkan latensi dan penggunaan token bagi pertanyaan biasa. Secara eksplisit memperuntukkan lebih masa penaakulan untuk arahan yang kompleks, dan lebih tekal pada masalah berbilang langkah; mungkin lebih perlahan untuk tugas sukar tetapi memberikan jawapan lebih mendalam.
Mod penaakulan: none / low / medium / high (GPT-5.1 lalai kepada none untuk kes latensi rendah; pilih tahap lebih tinggi untuk tugas yang lebih menuntut). Responses API menyediakan parameter reasoning untuk mengawalnya.
Nada & gaya lalai: ditulis agar lebih jelas untuk topik kompleks (kurang jargon), lebih menerangkan dan “sabar.”
Tetingkap konteks (token / konteks panjang) Thinking: jauh lebih besar — konteks 400K token untuk peringkat berbayar.

Key technical details

Peruntukan komputasi adaptif — reka bentuk latihan dan inferens menyebabkan model menggunakan lebih sedikit token penaakulan bagi tugas remeh dan secara berkadar lebih banyak untuk tugas sukar. Ini bukan “enjin pemikiran” yang berasingan tetapi peruntukan dinamik dalam saluran penaakulan.
Parameter penaakulan dalam Responses API — klien menghantar objek reasoning (contohnya reasoning: { "effort": "high" }) untuk meminta penaakulan dalaman yang lebih mendalam; set reasoning: { "effort": "none" } pada asasnya melumpuhkan lelaran penaakulan dalaman lanjutan bagi latensi lebih rendah. Responses API juga memulangkan metadata penaakulan/token (berguna untuk kos dan nyahpepijat). )
Alat & panggilan alat selari — GPT-5.1 memperbaiki panggilan alat selari dan menyertakan alat bernama (seperti apply_patch) yang mengurangkan mod kegagalan bagi suntingan berprogram; penyelarian meningkatkan throughput hujung-ke-hujung untuk aliran kerja yang banyak alat.
Cache prompt dan persistensi — prompt_cache_retention='24h' disokong pada endpoint Responses dan Chat Completions untuk mengekalkan konteks merentasi sesi berbilang pusingan (mengurangkan pengekodan token berulang).

Benchmark performance

Contoh latensi / kecekapan token (disediakan vendor): pada pertanyaan rutin, OpenAI melaporkan pengurangan dramatik masa/token (contoh: perintah penyenaraian npm yang mengambil ~10s / ~250 token pada GPT-5 kini mengambil ~2s / ~50 token pada GPT-5.1 dalam ujian representatif mereka). Penguji awal pihak ketiga (cth., pengurus aset, firma pengkodan) melaporkan peningkatan kelajuan 2–3× bagi banyak tugas dan peningkatan kecekapan token dalam aliran kerja yang berat alat.

OpenAI dan rakan awal menerbitkan tuntutan penanda aras representatif dan penambahbaikan yang diukur:

Penilaian	GPT‑5.1 (tinggi)	GPT‑5 (tinggi)
SWE-bench Verified (all 500 problems)	76.3%	72.8%
GPQA Diamond (no tools)	88.1%	85.7%
AIME 2025 (no tools)	94.0%	94.6%
FrontierMath (with Python tool)	26.7%	26.3%
MMMU	85.4%	84.2%
Tau2-bench Airline	67.0%	62.6%
Tau2-bench Telecom*	95.6%	96.7%
Tau2-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

Limitations & safety considerations

Risiko halusinasi masih wujud. Penaakulan adaptif membantu pada masalah kompleks tetapi tidak menghapuskan halusinasi; reasoning_effort yang lebih tinggi memperbaiki semakan tetapi tidak menjamin ketepatan. Sentiasa sahkan output berisiko tinggi.
Kompromi sumber dan kos: walaupun GPT-5.1 jauh lebih cekap token pada aliran mudah, mendayakan usaha penaakulan tinggi atau penggunaan alat berasaskan agen yang panjang boleh meningkatkan penggunaan token dan latensi. Gunakan cache prompt untuk mengurangkan kos berulang apabila sesuai.
Keselamatan alat: alat apply_patch dan shell meningkatkan kuasa automasi (dan risiko). Pengeluaran produksi harus mengawal pelaksanaan alat (semak diff/perintah sebelum dilaksanakan), gunakan keistimewaan minimum, dan pastikan pagar keselamatan operasi serta CI/CD yang teguh.

Comparison with other models

vs GPT-5: GPT-5.1 menambah baik penaakulan adaptif dan pematuhan arahan; OpenAI melaporkan masa respons lebih pantas pada tugas mudah dan ketekalan lebih baik pada tugas sukar. GPT-5.1 juga menambah pilihan penaakulan none dan cache prompt lanjutan.
vs GPT-4.x / 4.1: GPT-5.1 direka untuk tugas yang lebih berasaskan agen, berat alat, dan pengkodan; OpenAI dan rakan melaporkan peningkatan pada penanda aras pengkodan dan penaakulan berbilang langkah. Untuk banyak tugas perbualan standard, GPT-5.1 Instant mungkin setanding dengan model sembang GPT-4.x terdahulu tetapi dengan keboleharah dan pratetap personaliti yang dipertingkat.
vs Anthropic / Claude / other LLMs: ChatGPT 5.1′;s senibina MoA memberikannya kelebihan tersendiri dalam tugas yang memerlukan penaakulan kompleks dan berbilang langkah. Ia mencatat 98.20 yang belum pernah dicapai pada penanda aras HELM untuk penaakulan kompleks, berbanding 95.60 bagi Claude 4 dan 94.80 bagi Gemini 2.0 Ultra.

Basic features

Penaakulan adaptif: model melaras secara dinamik kedalaman pemikiran bagi setiap permintaan — lebih pantas untuk tugas rutin, lebih berterusan untuk yang kompleks. Ini mengurangkan latensi dan penggunaan token bagi pertanyaan biasa. Secara eksplisit memperuntukkan lebih masa penaakulan untuk arahan yang kompleks, dan lebih tekal pada masalah berbilang langkah; mungkin lebih perlahan untuk tugas sukar tetapi memberikan jawapan lebih mendalam.
Mod penaakulan: none / low / medium / high (GPT-5.1 lalai kepada none untuk kes latensi rendah; pilih tahap lebih tinggi untuk tugas yang lebih menuntut). Responses API menyediakan parameter reasoning untuk mengawalnya.
Nada & gaya lalai: ditulis agar lebih jelas untuk topik kompleks (kurang jargon), lebih menerangkan dan “sabar.”
Tetingkap konteks (token / konteks panjang) Thinking: jauh lebih besar — konteks 400K token untuk peringkat berbayar.

Key technical details

Peruntukan komputasi adaptif — reka bentuk latihan dan inferens menyebabkan model menggunakan lebih sedikit token penaakulan bagi tugas remeh dan secara berkadar lebih banyak untuk tugas sukar. Ini bukan “enjin pemikiran” yang berasingan tetapi peruntukan dinamik dalam saluran penaakulan.
Parameter penaakulan dalam Responses API — klien menghantar objek reasoning (contohnya reasoning: { "effort": "high" }) untuk meminta penaakulan dalaman yang lebih mendalam; set reasoning: { "effort": "none" } pada asasnya melumpuhkan lelaran penaakulan dalaman lanjutan bagi latensi lebih rendah. Responses API juga memulangkan metadata penaakulan/token (berguna untuk kos dan nyahpepijat). )
Alat & panggilan alat selari — GPT-5.1 memperbaiki panggilan alat selari dan menyertakan alat bernama (seperti apply_patch) yang mengurangkan mod kegagalan bagi suntingan berprogram; penyelarian meningkatkan throughput hujung-ke-hujung untuk aliran kerja yang banyak alat.
Cache prompt dan persistensi — prompt_cache_retention='24h' disokong pada endpoint Responses dan Chat Completions untuk mengekalkan konteks merentasi sesi berbilang pusingan (mengurangkan pengekodan token berulang).

Benchmark performance

OpenAI dan rakan awal menerbitkan tuntutan penanda aras representatif dan penambahbaikan yang diukur:

Penilaian	GPT‑5.1 (tinggi)	GPT‑5 (tinggi)
SWE-bench Verified (all 500 problems)	76.3%	72.8%
GPQA Diamond (no tools)	88.1%	85.7%
AIME 2025 (no tools)	94.0%	94.6%
FrontierMath (with Python tool)	26.7%	26.3%
MMMU	85.4%	84.2%
Tau2-bench Airline	67.0%	62.6%
Tau2-bench Telecom*	95.6%	96.7%
Tau2-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

Limitations & safety considerations

Risiko halusinasi masih wujud. Penaakulan adaptif membantu pada masalah kompleks tetapi tidak menghapuskan halusinasi; reasoning_effort yang lebih tinggi memperbaiki semakan tetapi tidak menjamin ketepatan. Sentiasa sahkan output berisiko tinggi.
Kompromi sumber dan kos: walaupun GPT-5.1 jauh lebih cekap token pada aliran mudah, mendayakan usaha penaakulan tinggi atau penggunaan alat berasaskan agen yang panjang boleh meningkatkan penggunaan token dan latensi. Gunakan cache prompt untuk mengurangkan kos berulang apabila sesuai.
Keselamatan alat: alat apply_patch dan shell meningkatkan kuasa automasi (dan risiko). Pengeluaran produksi harus mengawal pelaksanaan alat (semak diff/perintah sebelum dilaksanakan), gunakan keistimewaan minimum, dan pastikan pagar keselamatan operasi serta CI/CD yang teguh.

Comparison with other models

vs GPT-5: GPT-5.1 menambah baik penaakulan adaptif dan pematuhan arahan; OpenAI melaporkan masa respons lebih pantas pada tugas mudah dan ketekalan lebih baik pada tugas sukar. GPT-5.1 juga menambah pilihan penaakulan none dan cache prompt lanjutan.
vs GPT-4.x / 4.1: GPT-5.1 direka untuk tugas yang lebih berasaskan agen, berat alat, dan pengkodan; OpenAI dan rakan melaporkan peningkatan pada penanda aras pengkodan dan penaakulan berbilang langkah. Untuk banyak tugas perbualan standard, GPT-5.1 Instant mungkin setanding dengan model sembang GPT-4.x terdahulu tetapi dengan keboleharah dan pratetap personaliti yang dipertingkat.
vs Anthropic / Claude / other LLMs: ChatGPT 5.1′;s senibina MoA memberikannya kelebihan tersendiri dalam tugas yang memerlukan penaakulan kompleks dan berbilang langkah. Ia mencatat 98.20 yang belum pernah dicapai pada penanda aras HELM untuk penaakulan kompleks, berbanding 95.60 bagi Claude 4 dan 94.80 bagi Gemini 2.0 Ultra.

GPT-5.1

Basic features

Key technical details

Benchmark performance

Limitations & safety considerations

Comparison with other models

Ciri-ciri untuk GPT-5.1

Harga untuk GPT-5.1

Kod contoh dan API untuk GPT-5.1

Lebih Banyak Model

GPT-5.1

Basic features

Key technical details

Benchmark performance

Limitations & safety considerations

Comparison with other models

Ciri-ciri untuk GPT-5.1

Harga untuk GPT-5.1

Kod contoh dan API untuk GPT-5.1

Lebih Banyak Model