Guia de preços da API Anthropic para previsão de orçamento

TL;DR

A Anthropic cobra por token, não por chamada de API. O Claude Sonnet 4.6 custa US$ 3 por milhão de tokens de input e US$ 15 por milhão de tokens de output. O Haiku 4.5 sai por US$ 1/US$ 5 e o Opus 4.6, por US$ 5/US$ 25. Em todos os modelos, o token de output custa 5x o de input, o que deixa a previsão de gastos bem mais simples assim que você mede seus padrões reais de uso. Prompt caching e batch processing podem cortar custos em até 90% e 50%, respectivamente — mas só se você desenhar essas alavancas na sua arquitetura desde o começo.

Os workloads de IA já são uma das linhas de custo que mais crescem nos orçamentos corporativos. O Gartner projeta que o gasto global com IA chegará a US$ 2,52 trilhões em 2026, alta de 44% em relação ao ano anterior. No mesmo período, o relatório 2026 State of FinOps, da FinOps Foundation, apontou que 98% dos profissionais de FinOps já gerenciam gastos com IA, ante apenas 31% dois anos atrás. A prática evoluiu rápido.

O detalhe é que os preços da API Anthropic não se comportam como infraestrutura de nuvem tradicional. Você não paga por horas de computação nem por capacidade provisionada. Paga por token — e o consumo de tokens muda a cada prompt e a cada resposta. Um time que envia consultas curtas de classificação custa uma fração do que custa um time rodando agentes multi-turn com janelas de contexto longas. Sem medir os padrões reais de uso, a previsão orçamentária desanda rápido.

Este guia mostra como funcionam os preços da API Anthropic, como traduzir o uso de tokens em previsão de orçamento e o que os times FinOps podem fazer para manter os gastos com IA previsíveis e defensáveis à medida que os workloads escalam.

Como funcionam os preços da API Anthropic?

O modelo de preços por token da Anthropic cobra separadamente pelos tokens de input (o que você envia ao modelo) e pelos tokens de output (o que o modelo gera). Todo modelo Claude da geração atual mantém uma relação consistente de 5 para 1 entre output e input no preço, o que facilita o cálculo de cabeça. Sabendo o custo do input, é só multiplicar por cinco para chegar ao custo do output.

Tokens equivalem a cerca de 4 caracteres de texto, ou aproximadamente 0,75 palavra em inglês. Um system prompt típico de 1.000 palavras consome em torno de 1.300 tokens. Uma resposta de API com 500 palavras, cerca de 650 tokens. Essas médias mudam bastante quando o conteúdo envolve código, dados estruturados ou múltiplos idiomas. Todos os preços a seguir vêm da documentação oficial de preços da API da Anthropic.

Quanto custa o Claude Sonnet 4.6?

O Claude Sonnet 4.6 custa US$ 3 por milhão de tokens de input e US$ 15 por milhão de tokens de output nas tarifas padrão da API. Ele suporta uma janela de contexto de 1 milhão de tokens com preço único — ou seja, uma requisição de 900.000 tokens paga a mesma tarifa por token de uma de 9.000. Com batch processing, essas tarifas caem para US$ 1,50/US$ 7,50 por milhão de tokens. Com prompt caching, as leituras de input em cache custam US$ 0,30 por milhão de tokens (90% de desconto sobre a tarifa base de input).

O Sonnet 4.6 cobre a maioria dos workloads em produção. Atende coding, análise, redação, aplicações voltadas ao cliente e pipelines de RAG. Para o FinOps, ele fica no ponto ideal em que a capacidade justifica o custo numa gama ampla de casos de uso.

Preços do Claude Sonnet 4.6. Tarifas vigentes em maio de 2026. Confira os valores atualizados

Tipo de tarifa	Input (por MTok)	Output (por MTok)
Padrão	US$ 3,00	US$ 15,00
Batch processing (50% off)	US$ 1,50	US$ 7,50
Cache write (5 min, 1,25x)	US$ 3,75	US$ 15,00
Cache read (0,1x, 90% de economia)	US$ 0,30	US$ 15,00

Quanto custa o Claude Haiku 4.5?

O Claude Haiku 4.5 custa US$ 1 por milhão de tokens de input e US$ 5 por milhão de tokens de output. Suporta uma janela de contexto de 200.000 tokens. Com batch processing, esses valores caem para US$ 0,50/US$ 2,50 por milhão de tokens. Leituras em cache custam US$ 0,10 por milhão de tokens.

O Haiku 4.5 é feito para workloads de alto volume e sensíveis à latência, em que a eficiência de custo pesa mais do que a profundidade máxima de raciocínio. Classificação, roteamento, extração, sumarização e moderação se encaixam aqui. Uma operação de conteúdo que consome 20 milhões de tokens de input e 10 milhões de tokens de output por mês no Haiku 4.5 paga US$ 70 nas tarifas padrão — ou US$ 35 com batch processing.

Preços do Claude Haiku 4.5. Tarifas vigentes em maio de 2026. Confira os valores atualizados

Tipo de tarifa	Input (por MTok)	Output (por MTok)
Padrão	US$ 1,00	US$ 5,00
Batch processing (50% off)	US$ 0,50	US$ 2,50
Cache write (5 min, 1,25x)	US$ 1,25	US$ 5,00
Cache read (0,1x, 90% de economia)	US$ 0,10	US$ 5,00

Quanto custa o Claude Opus 4.6?

O Claude Opus 4.6 custa US$ 5 por milhão de tokens de input e US$ 25 por milhão de tokens de output. Assim como o Sonnet 4.6, suporta a janela completa de 1 milhão de tokens de contexto com preço único. Batch processing leva essas tarifas a US$ 2,50/US$ 12,50. Leituras em cache custam US$ 0,50 por milhão de tokens.

O Opus 4.6 é indicado para tarefas em que a profundidade máxima de raciocínio faz diferença: coding complexo, trabalhos jurídicos e de compliance, fluxos agentivos que exigem seguir instruções com precisão. Custa 1,67x o Sonnet 4.6 — uma diferença menor do que a que separa o Haiku do Sonnet. Para o planejamento orçamentário de FinOps, a pergunta é se a tarefa realmente exige raciocínio no nível do Opus. Muitos times que rodam tudo no Opus descobrem que 70%-80% das requisições poderiam ir para o Sonnet ou o Haiku por uma fração do custo.

Comparativo de preços da API Claude da Anthropic. Tarifas vigentes em maio de 2026. Confira os valores atualizados

Modelo	Input padrão	Output padrão	Input em batch	Janela de contexto
Haiku 4.5	US$ 1,00/MTok	US$ 5,00/MTok	US$ 0,50/MTok	200K tokens
Sonnet 4.6	US$ 3,00/MTok	US$ 15,00/MTok	US$ 1,50/MTok	1M tokens
Opus 4.6	US$ 5,00/MTok	US$ 25,00/MTok	US$ 2,50/MTok	1M tokens

Como calcular e prever os custos da API Anthropic?

Prever gastos com a API Anthropic começa pela medição, não pela estimativa. O consumo de tokens muda muito conforme o tipo de aplicação, e médias genéricas mais atrapalham do que ajudam. Um chatbot de suporte, um assistente de coding e um fluxo agentivo geram proporções de tokens, frequências de requisições e perfis de custo totalmente diferentes. O relatório 2026 State of FinOps, da FinOps Foundation, destacou que "muitos profissionais relatam dificuldade para obter visibilidade clara sobre o uso e os custos relacionados a IA", justamente porque "os workloads de IA costumam ter preços menos transparentes ou mais variáveis" do que a infraestrutura de nuvem tradicional.

Quais métodos de cálculo de custo por token realmente funcionam?

A fórmula básica: (tokens de input / 1.000.000 × tarifa de input) + (tokens de output / 1.000.000 × tarifa de output) = custo da requisição. Aplique a uma requisição média, multiplique pelo volume diário e você tem uma estimativa de custo diário que dá para projetar em base mensal e anual.

Um exemplo com o Sonnet 4.6. Um chatbot de suporte tem, em média, 2.000 tokens de input (system prompt mais histórico da conversa) e 400 tokens de output por turno. Nas tarifas padrão do Sonnet: (2.000 / 1.000.000 × US$ 3) + (400 / 1.000.000 × US$ 15) = US$ 0,006 + US$ 0,006 = US$ 0,012 por turno. A 50.000 turnos por dia, isso dá US$ 600/dia ou US$ 18.000/mês.

Agora adicione prompt caching ao mesmo chatbot: o system prompt de 1.500 tokens aparece em toda requisição. Mantenha esses tokens em cache à tarifa de leitura de US$ 0,30/MTok, em vez dos US$ 3,00/MTok do input padrão. Esses tokens em cache custam US$ 0,00045 por requisição, em vez de US$ 0,0045 — uma economia de US$ 0,004 por turno. A 50.000 turnos por dia, manter o system prompt em cache economiza cerca de US$ 200/dia, ou US$ 6.000/mês, sobre uma base de US$ 18.000.

Como analisar padrões de uso para prever custos?

Cálculos estáticos só funcionam enquanto os padrões de uso não mudam. Fluxos agentivos construídos sobre servidores MCP e Strands agents podem multiplicar o consumo de tokens sem aviso, conforme os agentes acionam sub-agentes, repetem etapas de raciocínio em loop ou buscam documentos longos de contexto. Uma tarefa que custa US$ 0,10 isoladamente pode chegar a US$ 2 ou US$ 5 quando passa por um pipeline de agentes.

Uma previsão eficaz exige acompanhar três coisas: volume de requisições por endpoint, distribuição de tokens (proporção input vs. output) e contagem de tokens no p95 vs. média por requisição. A média engana quando requisições de cauda longa dominam a conta. Um workload em que 80% das requisições têm em média 500 tokens, mas 5% chegam a 50.000 tokens, parece barato na média e sai caro na fatura.

Monte dashboards de uso que detalhem o consumo de tokens por time, por feature de produto e por versão do modelo. Sem essa atribuição, os esforços de otimização não conseguem mirar nos workloads certos. O relatório 2025 State of FinOps, da FinOps Foundation, apontou o gerenciamento de gastos com IA/ML como uma das prioridades que mais subiram (+4 posições) entre os profissionais — justamente porque os times estavam percebendo que os custos de IA se comportam de forma diferente dos custos de nuvem que eles já sabiam administrar.

Que estratégias de otimização de custo da API Anthropic os times FinOps devem usar?

A otimização de custos para a API Anthropic segue o mesmo princípio de qualquer outro workload em nuvem: alinhar a capacidade do recurso à complexidade da tarefa, eliminar desperdício e automatizar controles. A diferença é que aqui os "recursos" são tiers de modelo e volumes de tokens, em vez de tipos de instância e horas de computação.

Como funcionam rate limiting e controles de uso para workloads de IA?

Os rate limits da Anthropic operam por tier, indo dos limites iniciais para contas novas até limites negociados em contratos enterprise. Bater no rate limit não só deixa a aplicação mais lenta — gera latência imprevisível, o que costuma levar os times de engenharia a colocar lógica de retry, que pode inflar ainda mais o uso de tokens.

No lado do controle orçamentário, configure alertas de gastos pelo dashboard de uso da Anthropic antes de os custos dispararem, não depois. Estabeleça orçamentos de tokens por time ou por feature e implemente limites brandos na camada da aplicação. Pipelines agentivos precisam de tetos rígidos para profundidade de chamadas de ferramenta e acúmulo de contexto. Um agente livre para expandir a janela de contexto recursivamente consegue consumir tokens de forma exponencial em uma única sessão.

Responsabilidade compartilhada entre engenharia e finanças fecha o ciclo. A engenharia controla o código que dispara o consumo de tokens. Finanças é dona do orçamento. Sem rituais estruturados que conectem os dois lados, os picos de custo tendem a aparecer na fatura mensal, e não durante a sprint que os causou.

Como usar a seleção de modelos para ganhar eficiência de custo?

A decisão de otimização de maior impacto para a maioria dos usuários da API Anthropic é o roteamento de modelos. Rodar tudo no Opus quando o Haiku resolveria a tarefa custa 5x mais do que o necessário. Um split de 70/20/10 entre Haiku/Sonnet/Opus em um workload misto típico reduz os custos totais de API em mais da metade comparado a usar só o Sonnet.

Classifique suas requisições por tipo de tarefa. O Haiku 4.5 dá conta de classificação, roteamento, extração, sumarização e moderação por um quinto do custo do Sonnet. O Sonnet 4.6 cobre coding, análise, escrita e geração voltada ao cliente. O Opus 4.6 fica reservado para tarefas que exigem precisão máxima: cadeias de raciocínio complexas, instruções com múltiplas restrições e tarefas agentivas de longo prazo. Implemente a lógica de roteamento na camada da aplicação e avalie a qualidade dos outputs para confirmar que o Haiku realmente dá conta do que você imagina.

A Batch API oferece 50% de desconto em todos os custos de tokens para workloads que não exigem tempo real. Os jobs são processados de forma assíncrona em até 24 horas. Geração de conteúdo, enriquecimento de dados, sumarizações noturnas e pipelines de avaliação têm tudo a ver com batch. Em escala, a diferença se acumula rápido: um time que gasta US$ 30.000/mês nas tarifas padrão do Sonnet gasta US$ 15.000 no mesmo workload via Batch API, se o prazo permitir.

Como tomar boas decisões sobre os preços da API Anthropic para o seu orçamento?

Decidir sobre os preços da API Anthropic vai além de escolher o modelo mais barato. O objetivo dos times FinOps é construir um gasto com IA previsível e defensável, que aguente os ciclos de orçamento e acompanhe a demanda do negócio. Isso significa escolher uma infraestrutura que entregue visibilidade do consumo, e não só acesso aos modelos.

Ao comparar a Anthropic com alternativas como OpenAI ou Google Vertex AI, leve em conta o custo de administrar vários provedores, e não apenas as tarifas por token. A proliferação de ferramentas na infraestrutura de IA cria lacunas de atribuição, sobreposição de monitoramento e governança inconsistente entre times. Uma tarifa por token um pouco menor em outro provedor não compensa o custo operacional de administrar essa complexidade sem visibilidade unificada.

As vantagens dos preços da Anthropic para a previsão de FinOps: a relação consistente de 5x entre output e input em todos os modelos atuais simplifica a matemática orçamentária. A estrutura de tiers Sonnet/Haiku/Opus dá à engenharia uma escada clara de capacidade vs. custo para orientar o roteamento. E a janela de contexto de 1M de tokens com preço único elimina as sobretaxas variáveis de contexto longo que complicam a previsão em outros provedores.

O GenAI Intelligence da DoiT dá aos times FinOps visibilidade sobre os gastos com APIs de IA entre provedores, com atribuição de custo no nível do modelo, detecção de anomalias e controles de orçamento que aplicam aos workloads baseados em token a mesma disciplina que os times já usam para infraestrutura de nuvem. O time de Procurement da DoiT também ajuda a negociar commitments de volume e acordos enterprise à medida que o gasto com IA cresce.

Fale com a DoiT e torne seu gasto com a API Anthropic previsível e defensável.

Perguntas frequentes sobre os preços da API Anthropic

Como os preços da API Anthropic se diferenciam dos preços tradicionais de nuvem?

Os preços tradicionais de nuvem cobram por recursos provisionados: horas de computação, armazenamento e transferência de rede. Você paga independentemente de a capacidade estar rodando workloads ou ociosa. Já a API Anthropic cobra por token consumido, ou seja, você paga só pelo uso real. O desafio para os times FinOps é que o consumo de tokens varia a cada requisição. Tamanho do prompt, tamanho da resposta, modelo escolhido e comportamento dos agentes afetam a conta, o que torna os custos de IA baseados em uso mais difíceis de prever do que os custos de nuvem de capacidade fixa quando não há infraestrutura de medição implementada.

Qual é a forma mais barata de rodar o Claude para workloads de alto volume?

Combine o Claude Haiku 4.5 com a Batch API e prompt caching. O Haiku 4.5, a US$ 1/US$ 5 por milhão de tokens, cai para US$ 0,50/US$ 2,50 com batch processing. Adicione prompt caching para system prompts repetidos, e as leituras de input em cache passam a custar US$ 0,10 por milhão de tokens. Essa combinação cobre tarefas de alto volume de classificação, extração, sumarização e moderação por uma fração do custo do Sonnet. O batch processing roda os jobs de forma assíncrona em até 24 horas, então o trade-off é trocar latência por eficiência de custo.

Como os times FinOps devem alocar e rastrear os custos da API Anthropic?

Marque as requisições de API por time, feature de produto e ambiente na camada da aplicação. O dashboard de uso da Anthropic mostra o consumo por modelo, mas, por padrão, não detalha por time interno nem por linha de produto. Inclua essa atribuição nos metadados das requisições desde o início. Configure alertas de gasto semanais contra os orçamentos dos times, e não apenas limites mensais agregados. Acompanhe a distribuição de tokens (a proporção de input para output por tipo de requisição) junto com o volume de requisições, já que variações em qualquer uma indicam mudanças nos padrões de uso que afetam a precisão da previsão.