Cloud Intelligence™Cloud Intelligence™

Cloud Intelligence™

LLM en production : passer d'une latence de plusieurs secondes à moins d'une seconde, et diviser les coûts par 50

By Matthias BaetensAug 6, 20255 min read

Cette page est également disponible en English, Deutsch, Español, Italiano, 日本語 et Português.

Face à un incident critique sur votre infrastructure cloud, chaque seconde compte. Il vous faut une aide rapide et précise. Mais même en dehors de l'urgence, personne n'a envie de perdre un temps précieux à remplir de longs formulaires : vous voulez décrire votre problème et que tout le reste soit pris en charge.

Réduire la latence et les coûts d'un seul coup ? On signe tout de suite !

**Le défi : un support assisté par IA plus rapide et plus interactif**

Chez DoiT, Ava répond à vos questions FinOps et cloud. Mais il arrive que vous préfériez en discuter avec un expert humain. C'est là qu'intervient notre système Case IQ : il aide les clients à fournir les bons détails techniques au moment d'ouvrir un ticket, afin que nos Customer Reliability Engineers (CRE) disposent de tout le nécessaire pour résoudre rapidement le problème.

L'idée est née lors de notre hackathon de l'été 2024 et reposait sur les API d'OpenAI. Nous avons toutefois voulu aller plus loin, en concentrant nos efforts sur la latence des recommandations envoyées au client, pour rendre le système plus réactif et plus interactif.

**L'expérimentation : cinq modèles testés sur la latence, le coût et la performance**

Pour y parvenir, nous avons mené une expérimentation approfondie sur deux semaines, en comparant notre modèle actuel (le GPT-4o d'OpenAI) à quatre alternatives :

  • GPT-4.1 mini (le modèle plus récent et plus rapide d'OpenAI)
  • Llama 3.1 8B (un modèle plus petit et ultra-rapide, sur le hardware spécialisé de Groq)
  • Llama 3.3 70B (un modèle plus volumineux et plus performant, sur Groq)
  • Llama 4 Scout 17B (modèle en preview issu de la dernière famille de Meta, aux capacités prometteuses)

L'objectif principal : trouver un modèle offrant des latences inférieures à celles de GPT-4o. Nous nous attendions à un (léger) compromis sur la qualité des réponses, et toute économie réalisée serait un bonus appréciable.

Nous avons évalué ces modèles sur les cinq tâches que Case IQ exécute lorsque vous créez une demande :

  • Détection de la plateforme : à quelle plateforme la demande est-elle liée ?
  • Identification du produit : quel service cloud précis est concerné ?
  • Évaluation de la sévérité : quel est le niveau d'urgence du problème ?
  • Identification de l'actif : quel projet ou compte est concerné ?
  • Extraction des détails techniques : de quelles informations précises nos ingénieurs ont-ils besoin ?

En deux semaines, nous avons traité 21 517 traces sur 755 demandes clients réelles, en mesurant la latence, le coût et la précision.

Le socle technique qui a facilité cette comparaison, c'est notre intégration LangChain existante. Comme nous utilisions déjà LangChain pour notre implémentation GPT-4o, ajouter les modèles à comparer s'est révélé immédiat : nous avons branché des appels ChatGroq à côté de notre intégration ChatOpenAI, exécutés de façon asynchrone pour ne pas perturber notre système de production.

Nous nous sommes appuyés sur LangSmith pour une instrumentation complète, capturant automatiquement les mesures de latence, la consommation de tokens, les taux d'erreur et les logs d'entrée/sortie sur l'ensemble des traces.

**Les résultats : un gain de vitesse considérable au prix d'un léger compromis sur la qualité**

Les résultats ont dépassé nos attentes :

⚡ Vitesse multipliée par 4 à 5

  • Détection de la plateforme : 571 ms → 249 ms (2,3x plus rapide, avec Llama 3.3 70B)
  • Détection du produit : 851 ms → 406 ms (2,1x plus rapide, avec Llama 3.1 8B)
  • Détection de la sévérité : 605 ms → 234 ms (2,6x plus rapide, avec Llama 3.3 70B)
  • Détection de l'actif : 593 ms → 220 ms (2,7x plus rapide, avec Llama 3.3 70B)
  • Extraction des détails techniques : 1 914 ms → 334 ms (5,7x plus rapide, avec Llama 3.1 8B)

💰 Coûts réduits jusqu'à 50 fois

Si la vitesse était notre objectif principal, les économies obtenues sont remarquables : certaines tâches reviennent désormais 50 fois moins cher à exécuter, sans dégradation de la qualité.

🎯 Une performance préservée

Après examen manuel de demandes clients réelles, nous avons constaté que GPT-4o atteignait une précision de 92 à 96 %, tandis que nos alternatives plus rapides conservaient un excellent niveau :

  • Llama 3.3 70B : 88 à 96 % de précision, avec une vitesse multipliée par 2 à 3
  • Llama 3.1 8B : 55 à 88 % de précision, avec une vitesse multipliée par 4 à 5

**La stratégie gagnante : une approche hybride**

Plutôt que de retenir un seul modèle idéal, nous avons conclu qu'il fallait combiner plusieurs modèles pour atteindre l'optimum global :

  • Llama 3.1 8B pour la détection du produit et des détails techniques (ces tâches étant interdépendantes, c'est là que la vitesse compte le plus)
  • Llama 3.3 70B pour la détection de la plateforme, de la sévérité et de l'actif (Llama 3.1 8B semblait peiner sur ces tâches, même si nous pensons qu'une marge d'optimisation existe côté prompting)

Résultat ? Le temps de réponse total passe de plus de 3 secondes à moins d'une seconde, soit une accélération globale de 3 à 4x. Mieux encore, cette approche hybride devrait nous permettre de réaliser environ 93 % d'économies sur la facture totale.

**Ce que cela change pour vous**

Des réponses quasi instantanées : lorsque vous décrivez votre problème d'infrastructure cloud, Case IQ peut désormais l'analyser et vous demander les bons détails techniques presque immédiatement.

🔄 Des canaux de support en temps réel : ces gains de vitesse ouvrent de nouvelles possibilités. Nous explorons l'idée d'intégrer le support directement dans Slack ou d'autres messageries déjà utilisées par nos clients.

🚀 Une meilleure résolution dès le premier contact : des descriptions de problème plus précises et complètes permettent à nos spécialistes de répondre plus vite et de réduire les allers-retours.

**Enseignements et perspectives**

Si l'ensemble des détails techniques est passionnant (et disponible ici), nous en tirons deux enseignements clés :

  • Le choix stratégique des modèles paie : en sélectionnant soigneusement le fournisseur et le modèle, et en prenant des décisions d'architecture pertinentes, on peut obtenir des améliorations de latence spectaculaires (de plus de 3 secondes à moins d'une seconde), avec à la clé des économies massives en prime.
  • L'évaluation humaine reste irremplaçable : les métriques automatisées fournissent des repères utiles, mais la revue manuelle demeure essentielle pour mesurer la performance réelle dès qu'il s'agit de texte et d'humains. Il y a toujours des nuances que seules des personnes peuvent réellement apprécier.

Chez DoiT, notre devise est powered by technology, perfected by people. Ces améliorations garantissent que, lorsque vous avez besoin de l'expertise humaine de nos CRE, notre IA a déjà préparé le terrain pour vous apporter des réponses au plus vite.

Envie de découvrir le nouveau Case IQ par vous-même ? Contactez-nous dès aujourd'hui pour voir comment nous pouvons vous accompagner.