Cloud Intelligence™

LLMs en producción: de varios segundos a latencia sub-segundo con 50x menos costo…

By Matthias BaetensAug 6, 20255 min read

Esta página también está disponible en English, Deutsch, Français, Italiano, 日本語 y Português.

Cuando enfrentas un problema crítico de infraestructura en la nube, cada segundo cuenta. Necesitas ayuda rápida y precisa. Pero incluso sin tener prisa, no quieres perder tiempo valioso llenando formularios interminables; quieres describir tu problema y que del resto se encargue otro.

¿Reducir la latencia y el costo de un solo golpe? ¡Yo me apunto!

El reto: hacer que el soporte asistido por IA sea más ágil e interactivo

En DoiT contamos con Ava para resolver tus dudas de FinOps y nube. Sin embargo, a veces prefieres conversar con un experto humano. Ahí entra nuestro sistema Case IQ, que ayuda a los clientes a aportar los detalles técnicos correctos al abrir un caso, de modo que nuestros Customer Reliability Engineers (CREs) tengan todo lo que necesitan para resolver problemas con rapidez.

La idea nació en nuestro hackathon del verano de 2024 y se construyó sobre las APIs de OpenAI. Pero decidimos ir más allá del status quo y mejorarla, poniendo el foco en la latencia de las recomendaciones para que el sistema se sintiera más ágil e interactivo.

El experimento: cinco modelos puestos a prueba en latencia, costo y desempeño

Para resolverlo, diseñamos un experimento integral de 2 semanas en el que comparamos nuestro modelo actual (GPT-4o de OpenAI) con cuatro alternativas:

GPT-4.1 mini (el modelo más nuevo y rápido de OpenAI)
Llama 3.1 8B (modelo más pequeño y ultrarrápido sobre el hardware especializado de Groq)
Llama 3.3 70B (modelo más grande y capaz en Groq)
Llama 4 Scout 17B (modelo en preview de la última familia de Meta, con capacidades prometedoras)

El objetivo principal era encontrar un modelo con menor latencia que la línea base de GPT-4o. Asumíamos que perderíamos (un poco) de calidad en las respuestas para lograrlo, y cualquier ahorro en costo sería un agradable efecto secundario.

Probamos estos modelos en cinco tareas que ejecuta Case IQ cuando creas un engagement:

Detección de plataforma: ¿con qué plataforma específica está relacionada la solicitud?
Identificación de producto: ¿qué servicio de nube específico necesita ayuda?
Evaluación de severidad: ¿qué tan urgente es el problema?
Identificación de asset: ¿qué proyecto o cuenta se ve afectado?
Extracción de detalles técnicos: ¿qué información específica necesitan nuestros Engineers?

En dos semanas se procesaron 21,517 trazas en 755 engagements reales de clientes, midiendo latencia, costo y precisión.

La base técnica que facilitó esta comparación fue nuestra integración existente con LangChain. Como ya usábamos LangChain en la implementación con GPT-4o, sumar los modelos a comparar fue sencillo: añadimos llamadas a ChatGroq junto a la integración existente con ChatOpenAI, ejecutándolas de forma asíncrona para no afectar el sistema en producción.

Aprovechamos LangSmith para una instrumentación completa, capturando automáticamente mediciones de latencia, uso de tokens, tasas de error y registros de entrada/salida en todas las trazas.

Los resultados: más velocidad con un pequeño costo en calidad

Los resultados superaron nuestras expectativas:

⚡ Mejoras de velocidad de 4 a 5 veces

Detección de plataforma: 571ms → 249ms (2.3x más rápido, con Llama 3.3 70B)
Detección de producto: 851ms → 406ms (2.1x más rápido, con Llama 3.1 8B)
Detección de severidad: 605ms → 234ms (2.6x más rápido, con Llama 3.3 70B)
Detección de asset: 593ms → 220ms (2.7x más rápido, con Llama 3.3 70B)
Extracción de detalles técnicos: 1,914ms → 334ms (5.7x más rápido, con Llama 3.1 8B)

💰 Reducciones de costo de hasta 50x

Aunque la velocidad era el objetivo principal, el ahorro en costo fue notable: algunas tareas pasaron a ser 50 veces más baratas de ejecutar sin sacrificar la calidad.

🎯 Mantener el desempeño

Tras revisar manualmente engagements reales de clientes, encontramos que mientras GPT-4o lograba entre 92 y 96 % de precisión, nuestras alternativas más rápidas mantuvieron un desempeño sólido:

Llama 3.3 70B: 88–96 % de precisión con mejoras de velocidad de 2 a 3x
Llama 3.1 8B: 55–88 % de precisión con mejoras de velocidad de 4 a 5x

La estrategia ganadora: un enfoque híbrido

En lugar de elegir un único modelo "el mejor", concluimos que se necesitaban distintos modelos para llegar a una solución óptima en conjunto:

Llama 3.1 8B para la detección de producto y de detalles técnicos (al tener dependencias entre sí, aquí es donde la velocidad pesa más)
Llama 3.3 70B para la detección de plataforma y severidad, y la identificación de asset (Llama 3.1 8B parecía tener dificultades con esta tarea, aunque creemos que hay margen de optimización vía prompting)

¿El resultado? El tiempo total de respuesta bajó de más de 3 segundos a menos de 1 segundo: una aceleración global de 3 a 4 veces. Además, con este enfoque híbrido esperamos un ahorro de costos de ~93 % sobre la factura total.

Qué significa esto para ti

⚡ Respuestas casi instantáneas: cuando describes tu problema de infraestructura en la nube, Case IQ ya puede analizarlo y pedir los detalles técnicos correctos casi al instante.

🔄 Canales de soporte en tiempo real: estas mejoras de velocidad abren nuevas posibilidades. Estamos evaluando llevar el soporte directamente a Slack u otras plataformas de mensajería donde nuestros clientes ya están.

🚀 Mejor resolución a la primera: descripciones más precisas y completas para nuestros especialistas se traducen en tiempos de respuesta más cortos y menos idas y vueltas.

Conclusiones y próximos pasos

Aunque los detalles técnicos completos son fascinantes (y los puedes consultar aquí), el aprendizaje clave fue doble:

La selección estratégica de modelos funciona: elegir con cuidado el proveedor y el modelo, junto con decisiones de arquitectura inteligentes, permite lograr mejoras drásticas de latencia (de más de 3 segundos a menos de 1) con reducciones enormes de costo como bono extra.
La evaluación humana es insustituible: si bien las métricas automatizadas dan líneas base útiles, la revisión manual sigue siendo esencial para entender el desempeño real cuando se trabaja con texto y personas; siempre hay matices que solo las personas pueden evaluar bien.

En DoiT creemos en ser "powered by technology, perfected by people". Estas mejoras garantizan que, cuando necesites la experiencia humana de nuestros CREs, la IA ya haya hecho el trabajo previo para darte respuestas lo antes posible.

—

¿Quieres probar el nuevo Case IQ por ti mismo? Habla con nosotros hoy y descubre cómo podemos ayudarte.

**El reto: hacer que el soporte asistido por IA sea más ágil e interactivo**

**El experimento: cinco modelos puestos a prueba en latencia, costo y desempeño**

**Los resultados: más velocidad con un pequeño costo en calidad**

**La estrategia ganadora: un enfoque híbrido**

**Qué significa esto para ti**

**Conclusiones y próximos pasos**