Claude Haiku 4.5 は Anthropic による用途最適化された小型クラスの言語モデルで、2025年10月中旬にリリースされました。Claude ラインナップにおける高速・低コストの選択肢として位置づけられ、**コーディング、エージェントオーケストレーション、対話的な「コンピュータ操作」**ワークフローといったタスクでの高い能力を維持しつつ、エンタープライズ導入におけるより高いスループットと低い単価を実現します。
主な特長
- 速度とコスト効率: Haiku 4.5 は Sonnet 4 の2倍超の高速かつコストはおよそ3分の1(Opus よりも大幅に低コスト)と説明されており、スケール用途で魅力的です。
- 拡張思考: Haiku として初めて拡張思考(要約/インタリーブ型思考、思考予算の設定が可能)をサポートし、レイテンシーとのバランスを取りながら複数ステップの推論を深められます。
- ツールとコンピュータ操作: Claude ツール(bash、コード実行、テキストエディタ、ウェブ検索、コンピュータ操作の自動化)をフルサポート。エージェント型ワークフローやサブエージェント・アーキテクチャ向けに設計されています。
- 大規模コンテキストウィンドウ: コンテキストウィンドウは200k トークン(他のモデルクラス向けの大規模モデルではベータとして 1M コンテキストのオプションあり)。
技術的詳細
- 学習データとカットオフ: Haiku 4.5 は公開データとライセンスデータの独自ミックスで学習され、学習カットオフは 2025年2月ごろです。
- 拡張思考(ハイブリッド推論モード)をサポートし、要求時にレイテンシーと引き換えにより深い推論を行えます。
- コンテキストウィンドウはリリース時点で200,000 トークンで、モデルは明示的にコンテキストを認識(ウィンドウの使用量を追跡)します。
- 性能/スループット: コミュニティの初期報告や Anthropic のテストでは非常に高い OTPS(出力トークン/秒)が示され、内部/初期テストでは~200+ トークン/秒程度の速度が観測されたとの逸話もあります — 同等の中位モデルの多くよりはるかに高速です。
ベンチマーク性能
SWE-Bench(コーディング): Haiku 4.5 は SWE-Bench Verified で**~73.3%**を記録 — Anthropic は、この結果が Haiku 4.5 を同クラスにおける世界有数のコーディングモデルに位置づけるものだと強調しています。

ターミナル/コマンドライン/ツールテスト: Anthropic は Terminal-Bench(コマンドライン特化)で**~41%**を報告し、多くのツール利用系ベンチマークで Sonnet 4 や複数の競合する中位フロンティアモデルに匹敵する結果としています。
指示追従とスライドテキスト: Anthropic の内部例では、一部の指示追従タスクで従来モデルを上回ったとされます(例:スライドテキスト生成では、ベンチマークで従来のプレミアムモデルに対し65% vs 44%)。
実世界の自動化/エージェントタスク: 第三者評価やアーリーアダプターの報告では、OSWorld スタイルやエージェント系ベンチマークで複雑な自動化において≈50%の成功を示すテストもあり、スケール運用での有用性が示される一方で、無視できない失敗モードも確認されています。

制限事項と安全性に関する注意
- フロンティアモデルではない: Anthropic は Haiku 4.5 をフロンティアを押し広げるモデルではないと明示しており、最先端の追求ではなく効率性に最適化されています。(Anthropic)
- センシティブな話題での挙動: 一部の科学/バイオセーフティ関連のプロンプトにおいて、厳格な拒否ではなく注意書き付きの高レベル情報を返す場合があり、継続的な改善対象とされています。
- 拡張思考により振る舞いが変化することがある(応答の非対称性が増す場合があります)。
推奨ユースケース
- エージェント型コーディング&マルチエージェント・オーケストレーション: 高速サブエージェント、反復的なコードリファクタ、オートテストやパッチ生成。(適している)
- リアルタイムの大量顧客ワークフロー: チャットアシスタント、コスト重視の内部自動化。(適している)
- ツール活用ワークフローとコンピュータ制御: GUI/CLI の自動化、ドキュメントワークフローやツールチェーンで低レイテンシーが効く用途。(適している)
- 非推奨(コントロールなし): フロンティア級の科学的シーケンス設計や高保証のバイオセキュリティタスクを単独で担う用途。(注意が必要。)