Guía de precios de la API de Anthropic para tu presupuesto

TL;DR

Anthropic cobra por token, no por llamada a la API. Claude Sonnet 4.6 cuesta $3 por millón de tokens de input y $15 por millón de tokens de output. Haiku 4.5 cuesta $1/$5 y Opus 4.6 cuesta $5/$25. En todos los modelos, los tokens de output cuestan 5 veces más que los de input, lo que vuelve la proyección predecible una vez que mides tus patrones reales de uso. El prompt caching y el procesamiento por batch pueden reducir los costos hasta en 90% y 50% respectivamente, pero solo si integras esas palancas en tu arquitectura desde el inicio.

Los workloads de IA ya son una de las líneas de costo que más rápido crecen en los presupuestos empresariales. Gartner proyecta que el gasto global en IA alcanzará los $2.52 billones en 2026, un aumento del 44% interanual. En paralelo, el informe 2026 State of FinOps de la FinOps Foundation reveló que el 98% de los profesionales de FinOps ya gestionan el gasto en IA, frente a apenas el 31% hace dos años. La disciplina se puso al día rápido.

Lo particular de los precios de la API de Anthropic es que no se comportan como la infraestructura cloud tradicional. No pagas por horas de cómputo ni por capacidad aprovisionada. Pagas por token, y el consumo fluctúa con cada prompt y cada respuesta. Un equipo que envía consultas cortas de clasificación gasta una fracción de lo que gasta otro que ejecuta agentes multi-turno con ventanas de contexto extensas. Sin medir los patrones reales de uso, las proyecciones de presupuesto se desvían en poco tiempo.

Esta guía explica cómo funcionan los precios de la API de Anthropic, cómo traducir el uso de tokens en proyecciones de presupuesto y qué pueden hacer los equipos de FinOps para que el gasto en IA siga siendo predecible y defendible a medida que los workloads escalan.

¿Cómo son y cómo funcionan los precios de la API de Anthropic?

El modelo de precios por tokens de Anthropic cobra por separado los tokens de input (lo que envías al modelo) y los de output (lo que el modelo genera). Todos los modelos Claude de la generación actual mantienen una proporción consistente de 5 a 1 entre output e input, lo que simplifica los cálculos rápidos. Si conoces tu costo de input, multiplícalo por cinco y tienes el costo de output.

Cada token equivale a unos 4 caracteres de texto, o cerca de 0.75 palabras en inglés. Un system prompt típico de 1,000 palabras ronda los 1,300 tokens. Una respuesta de API de 500 palabras ronda los 650 tokens. Estos promedios cambian bastante con código, datos estructurados o contenido multilingüe. Todos los precios a continuación provienen de la documentación oficial de precios de la API de Anthropic.

¿Cuánto cuesta Claude Sonnet 4.6?

Claude Sonnet 4.6 cuesta $3 por millón de tokens de input y $15 por millón de tokens de output a precios estándar de la API. Admite una ventana de contexto de 1 millón de tokens con precio plano: una solicitud de 900,000 tokens paga la misma tarifa por token que una de 9,000. Con procesamiento por batch, esos precios bajan a $1.50/$7.50 por millón de tokens. Con prompt caching, las lecturas de input cacheado cuestan $0.30 por millón de tokens (90% menos que el precio base de input).

Sonnet 4.6 cubre la mayoría de los workloads de producción. Sirve para programación, análisis, redacción, aplicaciones de cara al cliente y pipelines RAG. Para FinOps, se ubica en el punto óptimo donde la capacidad justifica el costo en una amplia gama de casos de uso.

Precios de Claude Sonnet 4.6. Vigentes a mayo de 2026. Verifica los precios actuales

Tipo de precio	Input (por MTok)	Output (por MTok)
Estándar	$3.00	$15.00
Procesamiento por batch (50% menos)	$1.50	$7.50
Escritura en caché (5 min, 1.25x)	$3.75	$15.00
Lectura de caché (0.1x, 90% de ahorro)	$0.30	$15.00

¿Cuánto cuesta Claude Haiku 4.5?

Claude Haiku 4.5 cuesta $1 por millón de tokens de input y $5 por millón de tokens de output. Admite una ventana de contexto de 200,000 tokens. Con procesamiento por batch, eso baja a $0.50/$2.50 por millón de tokens. Las lecturas cacheadas cuestan $0.10 por millón de tokens.

Haiku 4.5 apunta a workloads de alto volumen y sensibles a la latencia, donde la eficiencia en costos pesa más que la máxima profundidad de razonamiento. Las tareas de clasificación, ruteo, extracción, resumen y moderación encajan aquí. Una operación de contenido que procesa 20 millones de tokens de input y 10 millones de tokens de output al mes en Haiku 4.5 paga $70 a precios estándar, o $35 con procesamiento por batch.

Precios de Claude Haiku 4.5. Vigentes a mayo de 2026. Verifica los precios actuales

Tipo de precio	Input (por MTok)	Output (por MTok)
Estándar	$1.00	$5.00
Procesamiento por batch (50% menos)	$0.50	$2.50
Escritura en caché (5 min, 1.25x)	$1.25	$5.00
Lectura de caché (0.1x, 90% de ahorro)	$0.10	$5.00

¿Cuánto cuesta Claude Opus 4.6?

Claude Opus 4.6 cuesta $5 por millón de tokens de input y $25 por millón de tokens de output. Al igual que Sonnet 4.6, admite la ventana completa de contexto de 1 millón de tokens a precio plano. El procesamiento por batch baja esos precios a $2.50/$12.50. Las lecturas cacheadas cuestan $0.50 por millón de tokens.

Opus 4.6 apunta a tareas donde la máxima profundidad de razonamiento es clave: programación compleja, trabajo legal y de cumplimiento, workflows agénticos que requieren seguir instrucciones con precisión. Cuesta 1.67 veces más que Sonnet 4.6, una brecha más pequeña que la que hay entre Haiku y Sonnet. Para la planificación de presupuesto en FinOps, la pregunta es si la tarea realmente exige razonamiento al nivel de Opus. Muchos equipos que corren todo en Opus descubren que entre el 70% y 80% de sus solicitudes podrían usar Sonnet o Haiku a una fracción del costo.

Comparativa de precios de la API de Anthropic Claude. Vigentes a mayo de 2026. Verifica los precios actuales

Modelo	Input estándar	Output estándar	Input por batch	Ventana de contexto
Haiku 4.5	$1.00/MTok	$5.00/MTok	$0.50/MTok	200K tokens
Sonnet 4.6	$3.00/MTok	$15.00/MTok	$1.50/MTok	1M tokens
Opus 4.6	$5.00/MTok	$25.00/MTok	$2.50/MTok	1M tokens

¿Cómo calculas y proyectas los costos de la API de Anthropic?

Proyectar el gasto en la API de Anthropic empieza por medir, no por estimar. El consumo de tokens varía bastante según el tipo de aplicación, y los promedios genéricos confunden más de lo que ayudan. Un chatbot de soporte, un asistente de programación y un workflow agéntico arrojan proporciones de tokens, frecuencias de solicitud y perfiles de costo completamente distintos. El informe 2026 State of FinOps de la FinOps Foundation señaló que "muchos profesionales reportan dificultades para tener visibilidad clara sobre el uso y los costos relacionados con IA", precisamente porque "los workloads de IA suelen tener precios menos transparentes o más variables" que la infraestructura cloud tradicional.

¿Qué métodos de cálculo de costos por token realmente funcionan?

La fórmula base: (tokens de input / 1,000,000 × precio de input) + (tokens de output / 1,000,000 × precio de output) = costo de la solicitud. Aplícala a una solicitud promedio, multiplica por el volumen diario de solicitudes y tienes un estimado diario que puedes proyectar a niveles mensuales y anuales.

Un ejemplo con Sonnet 4.6. Un chatbot de soporte promedia 2,000 tokens de input (system prompt más historial de conversación) y 400 tokens de output por turno. A precios estándar de Sonnet: (2,000 / 1,000,000 × $3) + (400 / 1,000,000 × $15) = $0.006 + $0.006 = $0.012 por turno de conversación. Con 50,000 turnos al día, eso suma $600/día o $18,000/mes.

Súmale prompt caching a ese mismo chatbot: el system prompt de 1,500 tokens aparece en cada solicitud. Cachea esos tokens al precio de lectura de $0.30/MTok en lugar de $3.00/MTok de input estándar. Esos tokens cacheados cuestan $0.00045 por solicitud en lugar de $0.0045, lo que ahorra $0.004 por turno. Con 50,000 turnos al día, cachear el system prompt ahorra unos $200/día, o $6,000/mes, sobre una base de $18,000.

¿Cómo analizas los patrones de uso para proyectar costos?

Los cálculos estáticos solo funcionan hasta que cambian los patrones de uso. Los workflows agénticos construidos sobre servidores MCP y agentes Strands pueden multiplicar el consumo de tokens sin previo aviso, ya que los agentes generan sub-agentes, iteran en pasos de razonamiento o recuperan documentos de contexto extensos. Una tarea que cuesta $0.10 de forma aislada puede costar entre $2 y $5 cuando corre dentro de un pipeline de agentes.

Una proyección efectiva exige monitorear tres cosas: volumen de solicitudes por endpoint, distribución de tokens (proporción input vs. output) y conteo de tokens p95 vs. promedio por solicitud. Los costos promedio engañan cuando las solicitudes de cola larga dominan la factura. Un workload donde el 80% de las solicitudes promedia 500 tokens pero el 5% llega a 50,000 tokens puede parecer barato en promedio y resultar caro en la factura.

Arma dashboards de uso que desglosen el consumo de tokens por equipo, función del producto y versión del modelo. Sin esa atribución, los esfuerzos de optimización no apuntan a los workloads correctos. El informe 2025 State of FinOps de la FinOps Foundation ubicó la gestión del gasto en IA/ML como uno de los cambios de prioridad de mayor crecimiento (+4 lugares) entre los profesionales, justamente porque los equipos descubrían que los costos de IA se comportan distinto a los costos cloud que ya sabían gestionar.

¿Qué estrategias de optimización de costos para la API de Anthropic deberían usar los equipos de FinOps?

La optimización de costos para el gasto en la API de Anthropic sigue el mismo principio que cualquier otro workload cloud: ajustar la capacidad de los recursos a la complejidad de la tarea, eliminar la pérdida y automatizar los controles. La diferencia es que aquí los "recursos" son niveles de modelo y volúmenes de tokens, no tipos de instancia ni horas de cómputo.

¿Cómo funcionan los rate limits y los controles de uso para workloads de IA?

Los rate limits de Anthropic operan por niveles, desde límites básicos para cuentas nuevas hasta límites negociados a nivel empresarial. Tocar techo en los rate limits no solo ralentiza tu aplicación: genera latencia impredecible que los equipos de Engineering suelen sortear con lógica de reintento, lo que puede inflar aún más el uso de tokens.

Por el lado del control de presupuesto, configura alertas de gasto en el dashboard de uso de Anthropic antes de que los costos se disparen, no después. Define presupuestos de tokens por equipo o por función y construye límites suaves en tu capa de aplicación. Los pipelines agénticos necesitan topes duros en la profundidad de llamadas a herramientas y en la acumulación de contexto. Un agente al que se le permite expandir recursivamente su ventana de contexto puede consumir tokens exponencialmente en una sola sesión.

La responsabilidad compartida entre Engineering y finanzas cierra el círculo. Engineering controla el código que dispara el consumo de tokens. Finanzas es dueño del presupuesto. Sin reuniones estructuradas que conecten a ambos grupos, los picos de costo aparecen en la factura mensual en lugar de durante el sprint que los provocó.

¿Cómo usar la selección de modelos para ganar eficiencia en costos?

La decisión de optimización de mayor impacto para la mayoría de usuarios de la API de Anthropic es el ruteo de modelos. Pasar cada solicitud por Opus cuando Haiku resuelve bien la tarea cuesta 5 veces más de lo necesario. Una distribución 70/20/10 entre Haiku/Sonnet/Opus en un workload típico mixto reduce el costo total de la API a menos de la mitad frente a usar solo Sonnet.

Clasifica tus solicitudes por tipo de tarea. Haiku 4.5 resuelve bien clasificación, ruteo, extracción, resumen y moderación a un quinto del costo de Sonnet. Sonnet 4.6 cubre programación, análisis, redacción y generación de cara al cliente. Opus 4.6 se reserva para tareas que exigen máxima precisión: cadenas de razonamiento complejas, instrucciones con múltiples restricciones y tareas agénticas de largo alcance. Integra la lógica de ruteo en tu capa de aplicación y mide la calidad de los outputs para confirmar que Haiku resuelve lo que crees que resuelve.

La Batch API ofrece 50% de descuento en todos los costos de tokens para workloads que no son en tiempo real. Los trabajos se procesan de forma asíncrona dentro de 24 horas. La generación de contenido, el enriquecimiento de datos, los resúmenes nocturnos y los pipelines de evaluación encajan en batch. A escala, la diferencia se acumula rápido: un equipo que gasta $30,000/mes en Sonnet a precios estándar gasta $15,000 en el mismo workload a través de la Batch API si los tiempos lo permiten.

¿Cómo tomar decisiones inteligentes sobre los precios de la API de Anthropic para tu presupuesto?

Decidir sobre los precios de la API de Anthropic implica más que elegir el modelo más barato. La meta de los equipos de FinOps es construir un gasto en IA predecible y defendible que sobreviva a los ciclos presupuestarios y escale con la demanda del negocio. Eso significa elegir infraestructura que aporte visibilidad sobre el consumo, no solo acceso a los modelos.

Al evaluar Anthropic frente a alternativas como OpenAI o Google Vertex AI, considera el costo de gestionar múltiples proveedores además de los precios por token. La proliferación de herramientas en infraestructura de IA genera brechas de atribución, sobrecarga de monitoreo duplicado y gobernanza inconsistente entre equipos. Un precio por token ligeramente menor en otro proveedor no compensa el costo operativo de gestionar esa complejidad sin visibilidad unificada.

Las ventajas de los precios de Anthropic para proyectar en FinOps: la proporción consistente de 5x entre output e input en cada modelo actual hace que los cálculos de presupuesto sean directos. La estructura por niveles Sonnet/Haiku/Opus le da a Engineering una escalera clara de capacidad a costo para rutear. Y la ventana de contexto de 1M tokens a precio plano elimina los recargos variables por contexto largo que complican las proyecciones en otros proveedores.

GenAI Intelligence de DoiT les da a los equipos de FinOps visibilidad sobre el gasto en APIs de IA entre proveedores, con atribución de costos a nivel de modelo, detección de anomalías y controles de presupuesto que aplican la misma disciplina a los workloads basados en tokens que los equipos ya usan para la infraestructura cloud. El equipo de Procurement de DoiT también ayuda a negociar commitments por volumen y acuerdos empresariales a medida que el gasto en IA escala.

Habla con DoiT para que tu gasto en la API de Anthropic sea predecible y defendible.

Preguntas frecuentes sobre los precios de la API de Anthropic

¿En qué se diferencian los precios de la API de Anthropic de los precios cloud tradicionales?

Los precios cloud tradicionales cobran por recursos aprovisionados: horas de cómputo, almacenamiento y transferencia de red. Pagas tanto si la capacidad ejecuta workloads como si queda inactiva. Los precios de la API de Anthropic cobran por token consumido, así que pagas solo por el uso real. El reto para los equipos de FinOps es que el consumo de tokens cambia con cada solicitud. La longitud del prompt, la longitud de la respuesta, la selección del modelo y el comportamiento del agente afectan la factura, lo que vuelve a los costos de IA basados en uso más difíciles de proyectar que los costos cloud de capacidad fija si no hay una infraestructura de medición implementada.

¿Cuál es la forma más económica de correr Claude para workloads de alto volumen?

Combina Claude Haiku 4.5 con la Batch API y prompt caching. Haiku 4.5 a $1/$5 por millón de tokens baja a $0.50/$2.50 con procesamiento por batch. Agrega prompt caching para system prompts repetidos, y las lecturas de input cacheado cuestan $0.10 por millón de tokens. Esa combinación cubre tareas de clasificación, extracción, resumen y moderación de alto volumen a una fracción del costo de Sonnet. El procesamiento por batch procesa los trabajos de forma asíncrona dentro de 24 horas, así que el trade-off es latencia a cambio de eficiencia en costos.

¿Cómo deberían los equipos de FinOps asignar y monitorear los costos de la API de Anthropic?

Etiqueta las solicitudes a la API por equipo, función del producto y entorno desde la capa de aplicación. El dashboard de uso de Anthropic muestra el consumo por modelo, pero por defecto no lo desglosa por equipo interno ni por línea de producto. Integra esa atribución en los metadatos de tus solicitudes desde el inicio. Configura alertas semanales de gasto contra los presupuestos de cada equipo, no solo límites agregados mensuales. Monitorea la distribución de tokens (la proporción de input a output por tipo de solicitud) junto con el volumen de solicitudes; los cambios en cualquiera de las dos señalan variaciones en los patrones de uso que afectan la precisión de la proyección.