Claude Haiku 4.5 é um modelo de linguagem de classe menor, otimizado para finalidades específicas, da Anthropic, lançado em meados de outubro de 2025. Está posicionado como uma opção rápida e de baixo custo na linha Claude que preserva forte capacidade em tarefas como programação, orquestração de agentes e fluxos de trabalho interativos de “uso do computador”, ao mesmo tempo que permite throughput muito maior e menor custo unitário para implantações empresariais.
Principais recursos
- Velocidade e eficiência de custo: O Haiku 4.5 é descrito como mais de duas vezes mais rápido que o Sonnet 4 e com cerca de um terço do custo do Sonnet 4 (e muito mais barato que o Opus), tornando-o atraente para uso em escala.
- Raciocínio estendido: Primeiro modelo Haiku a oferecer suporte a raciocínio estendido (pensamento resumido/intercalado, orçamentos de raciocínio configuráveis) para um raciocínio em múltiplas etapas mais profundo, equilibrando a latência.
- Ferramentas e uso do computador: Suporte completo às ferramentas do Claude (bash, execução de código, editor de texto, pesquisa na web e automação de uso do computador). Projetado para fluxos de trabalho orientados a agentes e arquiteturas de subagentes.
- Janela de contexto ampla: janela de contexto de 200k tokens (com opções de 1M de contexto disponíveis em modelos maiores como beta para outras classes de modelos).
Detalhes técnicos
- Dados de treinamento e corte: O Haiku 4.5 foi treinado em uma combinação proprietária de dados públicos e licenciados, com um corte de treinamento por volta de fevereiro de 2025.
- O raciocínio estendido (um modo híbrido de raciocínio) é suportado para que o modelo possa trocar latência por raciocínio mais profundo quando solicitado.
- A janela de contexto no lançamento é de 200,000 tokens, e o modelo é explicitamente ciente do contexto (ele rastreia quanto da janela já foi usado).
- Desempenho / throughput: Relatos iniciais da comunidade e testes da Anthropic citam OTPS muito altos (tokens de saída/seg) e velocidades anedóticas em torno de ~200+ tokens/seg em alguns testes internos/iniciais — muito mais rápido do que muitos modelos intermediários comparáveis.
Desempenho em benchmarks
SWE-Bench (programação): O Haiku 4.5 obteve ~73.3% no SWE-Bench Verified — um resultado que a Anthropic destaca como colocando o Haiku 4.5 entre os melhores modelos de programação do mundo em sua classe.

Terminal / linha de comando / testes de ferramentas: A Anthropic reportou ~41% no Terminal-Bench (focado em linha de comando) e resultados comparáveis ao Sonnet 4 e a vários modelos de ponta de médio porte concorrentes em muitos benchmarks de uso de ferramentas.
Seguimento de instruções e texto de slides: exemplos internos da Anthropic afirmam que o Haiku 4.5 superou modelos anteriores em algumas tarefas de seguimento de instruções (por exemplo, geração de texto para slides: 65% vs 44% em relação a um modelo premium anterior no benchmark deles).
Automação no mundo real / tarefas de agentes: avaliações de terceiros e adotantes iniciais relatam taxas de sucesso competitivas em tarefas automatizadas de UI/agentes (por exemplo, benchmarks no estilo OSWorld ou de agentes relatando ≈50% de sucesso em automações complexas em alguns testes), mostrando utilidade para fluxos de trabalho em escala, embora com modos de falha não triviais.

Limitações e notas de segurança
- Não é um modelo de fronteira: A Anthropic classifica explicitamente o Haiku 4.5 como não avançando a fronteira; ele é otimizado para eficiência em vez de levar o estado da arte absoluto adiante. (Anthropic)
- Comportamento ocasional em temas sensíveis: em alguns prompts científicos/relacionados à biossegurança, o Haiku 4.5 às vezes retorna informações em nível alto, com ressalvas, em vez de recusas estritas; a Anthropic sinaliza isso como uma área em melhoria contínua.
- O raciocínio estendido pode mudar o comportamento (às vezes aumenta a assimetria nas respostas).
Casos de uso recomendados
- Programação orientada a agentes e orquestração multiagente: subagentes rápidos, refatoração iterativa de código, autotestes e geração de patches. (Boa opção.)
- Fluxos de trabalho com clientes em tempo real e alto volume: assistentes de chat, automação interna onde o custo por solicitação importa. (Boa opção.)
- Fluxos de trabalho habilitados por ferramentas e controle do computador: automação de tarefas de GUI/CLI, fluxos de documentos e cadeias de ferramentas onde a baixa latência ajuda. (Boa opção.)
- Não recomendado (sem controles): funções isoladas que exigem design de sequências científicas em nível de fronteira ou tarefas de biossegurança de alta garantia. (Proceda com cautela.)