Cloud Intelligence™

LLM in produzione: dalla latenza di più secondi al sotto-secondo, con costi ridotti di 50 volte…

By Matthias BaetensAug 6, 20255 min read

Questa pagina è disponibile anche in English, Deutsch, Español, Français, 日本語 e Português.

Di fronte a un problema critico sull'infrastruttura cloud ogni secondo conta. Serve un aiuto rapido e preciso. Ma anche senza l'urgenza addosso, nessuno ha voglia di perdere tempo prezioso a compilare moduli interminabili: si vuole descrivere il problema e lasciare che del resto si occupi qualcun altro.

Ridurre latenza e costi in un colpo solo? Ci stiamo!

La sfida: rendere il supporto basato sull'AI più rapido e interattivo

In DoiT mettiamo a Sua disposizione Ava, che La affianca nelle domande su FinOps e cloud. A volte, però, è preferibile confrontarsi con un esperto in carne e ossa. È qui che entra in gioco il nostro sistema Case IQ: aiuta i clienti a fornire i dettagli tecnici corretti all'apertura di un caso, in modo che i nostri Customer Reliability Engineers (CRE) abbiano subito tutto ciò che serve per risolvere rapidamente i problemi.

L'idea è nata durante il nostro hackathon dell'estate 2024 ed è stata realizzata sulle API di OpenAI. Abbiamo però deciso di alzare l'asticella, lavorando sulla latenza dei suggerimenti forniti al cliente per rendere il sistema più reattivo e interattivo.

L'esperimento: cinque modelli a confronto su latenza, costo e prestazioni

Per riuscirci abbiamo progettato un esperimento di due settimane, mettendo a confronto il nostro modello attuale (GPT-4o di OpenAI) con quattro alternative:

GPT-4.1 mini (il modello più recente e veloce di OpenAI)
Llama 3.1 8B (modello più piccolo e ultraveloce, sull'hardware specializzato di Groq)
Llama 3.3 70B (modello più grande e capace, su Groq)
Llama 4 Scout 17B (modello in preview dell'ultima famiglia di Meta, dalle capacità promettenti)

L'obiettivo principale era trovare un modello con latenze inferiori rispetto al baseline GPT-4o. Mettevamo in conto un (lieve) calo nella qualità delle risposte come prezzo da pagare, considerando il risparmio sui costi un piacevole effetto collaterale.

Abbiamo testato questi modelli su cinque attività che Case IQ esegue alla creazione di un engagement:

Rilevamento della piattaforma: a quale piattaforma specifica si riferisce la richiesta
Identificazione del prodotto: quale servizio cloud richiede assistenza?
Valutazione della gravità: quanto è urgente il problema?
Identificazione dell'asset: quale progetto o account è coinvolto?
Estrazione dei dettagli tecnici: quali informazioni servono ai nostri Engineers?

In due settimane abbiamo elaborato 21.517 trace su 755 engagement reali con clienti, misurando latenza, costo e accuratezza.

A semplificare il confronto è stata la nostra integrazione esistente con LangChain. Dato che la utilizzavamo già per l'implementazione di GPT-4o, aggiungere i modelli da confrontare è stato immediato: abbiamo affiancato chiamate ChatGroq all'integrazione ChatOpenAI già in uso, eseguendole in modo asincrono per non incidere sul sistema in produzione.

Per la strumentazione completa ci siamo affidati a LangSmith, che acquisisce automaticamente misurazioni di latenza, utilizzo dei token, tassi di errore e logging di input/output su tutte le trace.

I risultati: più velocità a fronte di un piccolo sacrificio sulla qualità

I risultati hanno superato le nostre aspettative:

⚡ Velocità migliorata di 4-5 volte

Rilevamento piattaforma: 571 ms → 249 ms (2,3x più veloce, con Llama 3.3 70B)
Rilevamento prodotto: 851 ms → 406 ms (2,1x più veloce, con Llama 3.1 8B)
Rilevamento gravità: 605 ms → 234 ms (2,6x più veloce, con Llama 3.3 70B)
Rilevamento asset: 593 ms → 220 ms (2,7x più veloce, con Llama 3.3 70B)
Estrazione dettagli tecnici: 1.914 ms → 334 ms (5,7x più veloce, con Llama 3.1 8B)

💰 Costi ridotti fino a 50 volte

La velocità era il nostro obiettivo principale, ma il risparmio sui costi è stato sorprendente: alcune attività sono diventate 50 volte meno costose, senza sacrificare la qualità.

🎯 Prestazioni mantenute

Da una revisione manuale di engagement reali con clienti è emerso che, a fronte del 92-96% di accuratezza di GPT-4o, le alternative più rapide hanno mantenuto prestazioni solide:

Llama 3.3 70B: accuratezza dell'88-96% con velocità migliorata di 2-3 volte
Llama 3.1 8B: accuratezza del 55-88% con velocità migliorata di 4-5 volte

La strategia vincente: un approccio ibrido

Anziché puntare su un unico modello "migliore", siamo arrivati alla conclusione che per una soluzione ottimale nel complesso servissero modelli diversi:

Llama 3.1 8B per il rilevamento del prodotto e dei dettagli tecnici (queste attività dipendono l'una dall'altra, quindi è qui che la velocità conta di più)
Llama 3.3 70B per il rilevamento di piattaforma, gravità e asset (Llama 3.1 8B sembrava in difficoltà su questi task, anche se siamo convinti ci sia margine di ottimizzazione lavorando sul prompting)

Il risultato? Il tempo totale di risposta scende da oltre 3 secondi a meno di 1 secondo: un miglioramento complessivo di 3-4 volte. In più, con questo approccio ibrido prevediamo un risparmio sui costi di circa il 93% sulla spesa complessiva.

Cosa significa tutto questo per Lei

⚡ Risposte quasi istantanee: quando descrive un problema della Sua infrastruttura cloud, Case IQ riesce ora ad analizzarlo e a richiedere i dettagli tecnici corretti praticamente in tempo reale.

🔄 Canali di supporto in tempo reale: questi miglioramenti di velocità aprono nuovi scenari. Stiamo valutando di portare il supporto direttamente su Slack o su altre piattaforme di messaggistica già utilizzate dai nostri clienti.

🚀 Risoluzione migliore al primo contatto: descrizioni dei problemi più accurate e complete per i nostri specialisti si traducono in tempi di risposta più rapidi e in meno botta e risposta.

Conclusioni e prossimi passi

I dettagli tecnici completi sono affascinanti (e disponibili qui), ma la lezione di fondo è duplice:

La selezione strategica dei modelli funziona: scegliere con attenzione provider e modelli, abbinandoli a decisioni architetturali intelligenti, consente miglioramenti drastici di latenza (da oltre 3 secondi al sotto-secondo) e, come bonus, riduzioni di costo enormi.
La valutazione umana è insostituibile: le metriche automatiche offrono utili baseline, ma la revisione manuale resta essenziale per capire le prestazioni reali quando si lavora con testo e persone. C'è sempre una sfumatura che solo l'occhio umano sa cogliere davvero.

In DoiT crediamo nel "powered by technology, perfected by people". Questi miglioramenti fanno sì che, quando ha bisogno della competenza umana dei nostri CRE, la nostra AI abbia già preparato il terreno per fornirLe risposte nel minor tempo possibile.

—

Vuole provare di persona il nuovo Case IQ? Ci contatti oggi stesso e scopra come possiamo esserLe utili.

**La sfida: rendere il supporto basato sull'AI più rapido e interattivo**

**L'esperimento: cinque modelli a confronto su latenza, costo e prestazioni**

**I risultati: più velocità a fronte di un piccolo sacrificio sulla qualità**

**La strategia vincente: un approccio ibrido**

**Cosa significa tutto questo per Lei**

**Conclusioni e prossimi passi**