Claude Haiku 4.5 是一款針對特定用途優化的較小級別語言模型,由 Anthropic 於 2025 年 10 月中旬發佈。其在 Claude 產品線中定位為快速、低成本的選項,同時在 **coding、代理編排與互動式「電腦操作」**等工作流程上保持強大能力,並為企業部署帶來更高吞吐與更低單次成本。
主要特性
- 速度與成本效益: Haiku 4.5 的速度被描述為比 Sonnet 4 快兩倍以上,成本約為 Sonnet 4 的 三分之一(且遠低於 Opus),對大規模使用具吸引力。
- 延展思考: 首款支援延展思考的 Haiku 模型(摘要/交錯思路、可配置思考預算),在平衡延遲的同時,實現更深入的多步推理。
- 工具與電腦操作: 完整支援 Claude 工具(bash、程式碼執行、文字編輯器、網頁搜尋與電腦操作自動化)。為代理型工作流程與子代理架構而設計。
- 大型上下文視窗: 200k token 的上下文視窗(其他模型類別中的更大型號提供 1M context 選項測試版)。
技術細節
- 訓練資料與截止: Haiku 4.5 採用專有的公共與授權資料混合訓練,訓練截止時間約為 2025 年 2 月。
- 支援延展思考(混合推理模式),可在需求時以延遲換取更深入的推理。
- 發佈時的上下文視窗為 200,000 tokens,模型具明確的上下文感知能力(會追蹤視窗使用量)。
- 效能/吞吐量: 社群早期回報與 Anthropic 測試指出 OTPS(output tokens/sec) 很高,部分內部/早期測試的實測速度約 ~200+ tokens/sec——遠快於許多同級中階模型。
基準表現
SWE-Bench(程式設計): Haiku 4.5 在 SWE-Bench Verified 上取得 ~73.3%,Anthropic 指出該成績使 Haiku 4.5 成為同級中數一數二的程式設計模型。

終端/命令列/工具測試: Anthropic 報告在 Terminal-Bench(聚焦命令列)取得 ~41%,並在多項工具使用基準上與 Sonnet 4 及多個同級中階前沿模型表現相當。
指令遵循與投影片文字: Anthropic 的內部示例顯示,Haiku 4.5 在部分指令遵循任務上超越先前模型(例如投影片文字生成:其基準中對先前高階模型為:65% vs 44%)。
真實世界自動化/代理任務: 第三方評估與早期採用者回報在自動化 UI/代理任務上具有具競爭力的成功率(例如 OSWorld 風格或代理基準在部分測試中對複雜自動化報告 ≈50% 的成功率),顯示其對大規模工作流程的實用性,但仍存在非輕微的失敗模式。

侷限與安全注意事項
- 非前沿模型: Anthropic 明確將 Haiku 4.5 歸類為非推進前沿;其優化方向是效率而非追求絕對最先進的水準。(Anthropic)
- 在敏感主題上的偶發行為: 在某些科學/生物安全相關提示中,Haiku 4.5 有時會提供附帶警示的高層次資訊,而非嚴格拒絕;Anthropic 指出這是持續改進的重點領域。
- 延展思考 可能改變行為(有時會增加回應的不對稱性)。
推薦用例
- 代理式程式設計與多代理編排: 快速子代理、迭代式程式碼重構、自動化測試與修補產生。(適合。)
- 即時、高量的客戶工作流程: 聊天助理、重視每次請求成本的內部自動化。(適合。)
- 工具驅動的流程與電腦控制: 自動化 GUI/CLI 任務、文件流程與工具鏈,低延遲可帶來幫助。(適合。)
- 不建議(缺乏管控時): 需要前沿級科學序列設計或高保證生物安全任務的獨立角色。(請謹慎。)