Home/Models/OpenAI/GPT-5.1
O

GPT-5.1

輸入:$1/M
輸出:$8/M
GPT-5.1 是一款通用的指令微調語言模型,專注於跨產品工作流程的文本生成與推理。它支援多輪對話、結構化輸出格式,以及以程式碼為導向的任務,例如撰寫、重構與說明。典型用例包括聊天助理、檢索增強式問答、資料轉換,以及在支援的情況下透過工具或 API 進行代理式自動化。技術亮點包括以文本為中心的模態、指令遵循、JSON 風格輸出,以及與常見編排框架中的函式呼叫相容。
新
商業用途
Playground
概覽
功能
定價
API

GPT 5.1 API 是什麼 GPT-5.1 Thinking 是 OpenAI 的 GPT-5.1 家族中的進階推理變體,它優先考慮自適應、更高品質的推理,同時讓開發者能對延遲/計算權衡進行明確控制。

基本功能

  • 自適應推理:模型會根據每個請求動態調整思考深度——在例行任務上更快,在複雜任務上更持久。這可降低常見查詢的延遲與 token 使用量;對複雜提示會明確分配更多推理時間,並在多步問題上更「堅持」。在困難任務上可能更慢,但能給出更深入的答案。
  • 推理模式:none / low / medium / high(在低延遲場景中,GPT-5.1 預設為 none;對要求更高的任務選擇更高等級)。Responses API 提供 reasoning 參數進行控制。
  • 預設語氣與風格:在複雜主題上表達更清晰(更少行話)、更具解釋性且「耐心」。
  • 上下文視窗(tokens / 長上下文) Thinking:更大——付費層級提供 400K token 上下文。

關鍵技術細節

  • 自適應計算分配 —— 訓練與推理設計使模型在瑣碎任務上消耗較少推理 token,而在困難任務上按比例投入更多。這並非獨立的「思考引擎」,而是在推理流程中的動態分配。
  • Responses API 中的推理參數 —— 用戶可傳入 reasoning 物件(例如 reasoning: { "effort": "high" })以請求更深入的內部推理;設定 reasoning: { "effort": "none" } 可有效停用擴展的內部推理流程,以獲得更低延遲。Responses API 也會回傳推理/token 中繼資料(有助於成本與除錯)。 )
  • 工具與並行工具呼叫 —— GPT-5.1 改進了並行工具呼叫,並包含具名工具(如 apply_patch),以降低程式化編輯的失敗模式;並行化可提升依賴工具的流程端到端吞吐量。
  • 提示快取與持久化 —— prompt_cache_retention='24h' 受 Responses 與 Chat Completions 端點支援,以在多輪對話中保留上下文(減少重複的 token 編碼)。

基準表現

延遲 / token 效率示例(供應商提供): 在例行查詢上,OpenAI 報告了顯著的 token/時間下降(示例:在其代表性測試中,一個 npm 列表命令在 GPT-5 上需約 ~10s / ~250 tokens,在 GPT-5.1 上約 ~2s / ~50 tokens)。第三方早期測試者(如資產管理機構、程式開發公司)在許多任務上回報 2–3× 的加速,以及在依賴工具的流程中更高的 token 效率。

OpenAI 與早期合作夥伴發佈了代表性的基準聲明與測得的改進:

評估GPT‑5.1 (high)GPT‑5 (high)
SWE-bench Verified(全部 500 題)76.3%72.8%
GPQA Diamond(無工具)88.1%85.7%
AIME 2025(無工具)94.0%94.6%
FrontierMath(使用 Python 工具)26.7%26.3%
MMMU85.4%84.2%
Tau2-bench Airline67.0%62.6%
Tau2-bench Telecom*95.6%96.7%
Tau2-bench Retail77.9%81.1%
BrowseComp Long Context 128k90.0%90.0%

侷限與安全考量

  • 幻覺風險仍然存在。 自適應推理有助於處理複雜問題,但無法消除幻覺;提高 reasoning_effort 有助於檢查,但不保證正確性。對高風險輸出務必進行驗證。
  • 資源與成本權衡: 雖然 GPT-5.1 在簡單流程上可更節省 token,但啟用高推理強度或長時間的代理式工具使用會增加 token 消耗與延遲。適當使用提示快取以減輕重複成本。
  • 工具安全: apply_patch 與 shell 工具提升了自動化能力(也帶來風險)。在生產部署中應對工具執行設置閘門(在執行前審核差異/命令)、採用最小權限,並確保健全的 CI/CD 與運維護欄。

與其他模型比較

  • 對比 GPT-5:GPT-5.1 改進了自適應推理與指令遵循;OpenAI 報告在簡單任務上回應更快、在困難任務上更具持久性。GPT-5.1 也新增了 none 推理選項與擴展的提示快取。
  • 對比 GPT-4.x / 4.1:GPT-5.1 更針對代理式、重工具與程式設計任務設計;OpenAI 與合作夥伴在編碼基準與多步推理上報告了進步。對許多標準對話任務而言,GPT-5.1 Instant 可能與早期 GPT-4.x 聊天模型相當,但具有更好的可引導性與人格預設。
  • 對比 Anthropic / Claude / 其他 LLM:ChatGPT 5.1 的 MoA 架構在需要複雜、多步推理的任務上具有明顯優勢。它在 HELM 複雜推理基準上取得前所未有的 98.20 分,相較之下,Claude 4 為 95.60,Gemini 2.0 Ultra 為 94.80。

GPT-5.1 的功能

探索 GPT-5.1 的核心功能,專為提升效能和可用性而設計。了解這些功能如何為您的專案帶來效益並改善使用者體驗。

GPT-5.1 的定價

探索 GPT-5.1 的競爭性定價,專為滿足各種預算和使用需求而設計。我們靈活的方案確保您只需為實際使用量付費,讓您能夠隨著需求增長輕鬆擴展。了解 GPT-5.1 如何在保持成本可控的同時提升您的專案效果。
彗星價格 (USD / M Tokens)官方價格 (USD / M Tokens)折扣
輸入:$1/M
輸出:$8/M
輸入:$1.25/M
輸出:$10/M
-20%

GPT-5.1 的範例程式碼和 API

GPT 5.1 API 是什麼?GPT-5.1 Thinking 是 OpenAI 的 GPT-5.1 系列中的進階推理變體,優先提供自適應、更高品質的推理,同時讓開發者對延遲/運算資源取捨擁有明確的控制權。
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)
response = client.responses.create(
    model="gpt-5.1", input="Tell me a three sentence bedtime story about a unicorn."
)

print(response)

更多模型