Costi GenAI sotto controllo: DoiT e AWS Bedrock

Nel far west dell'AI generativa, il budget rischia di diventare in fretta il pistolero più rapido della città, crivellando di colpi le finanze pianificate con cura prima ancora che ci si renda conto di cosa stia accadendo. Mentre le aziende corrono ad adottare foundation model come Amazon Nova e altri tramite Amazon Bedrock, in molti scoprono una verità scomoda: tracciare chi spende cosa nell'AI può sembrare come voler contare le gocce di pioggia durante un temporale.

Ed ecco entrare in scena gli application inference profile di Amazon Bedrock: gli eroi silenziosi della gestione finanziaria GenAI, capaci di salvare il budget (e magari anche il posto di lavoro). Combinati con DoiT Cloud Intelligence™, danno vita a una soluzione potente che trasforma una spesa AI nebulosa in insight cristallini.

Leggi gratuitamente: https://medium.com/@edu7mota/07dc441e3a3a?source=friends_link&sk=67ef0d4c71aa421702b8f7272fe036a5

Il problema che fa male: una spesa AI invisibile

Chi ha portato in produzione foundation model conosce bene quel momento di sgomento all'arrivo della fattura AWS. "Chi ha speso TUTTO QUESTO in query Amazon Nova il mese scorso?". Senza un tracciamento adeguato, la spesa GenAI è di fatto una scatola nera: si sa che il denaro esce, ma verso dove? Per quale finalità? E per opera di chi?

Gli application inference profile offrono alle organizzazioni un metodo efficace per tracciare, allocare e gestire i costi legati all'invocazione dei foundation model in Amazon Bedrock. Rilasciati da AWS come parte dello stack di servizi per l'AI generativa, questi profili garantiscono un controllo granulare sull'attribuzione dei costi e sul monitoraggio dell'utilizzo delle risorse tra dipartimenti, team e applicazioni.

Cosa sono, in concreto, gli application inference profile?

Si pensi agli application inference profile come a identificatori speciali da associare alle chiamate API dei propri foundation model. Quando si crea un application inference profile, si indica un singolo foundation model in una regione oppure un inference profile cross-region (definito dal sistema). Una volta configurato, ogni richiesta di invocazione del modello effettuata tramite il profilo viene registrata e taggata di conseguenza, permettendo un tracciamento dettagliato e un'attribuzione precisa dei costi.

Questi profili agiscono come un meccanismo di routing che mantiene il collegamento tra ciascuna richiesta AI e la sua origine, che si tratti di un team, un'applicazione o un cliente specifico.

Tre casi d'uso che cambiano le regole del gioco (e salvano la lucidità)

1. Allocazione dei costi multi-tenant: chi sta usando cosa?

Chi sviluppa un prodotto SaaS con funzionalità GenAI si sarà chiesto almeno una volta: "Quanto ci costa ogni cliente in termini di utilizzo AI?".

Con gli application inference profile è possibile creare un profilo univoco per ciascun cliente o tenant. A ogni interazione con la propria AI, il consumo viene tracciato sotto il profilo specifico. In pratica si può:

vedere con esattezza quanto pesa ciascun cliente in termini di utilizzo dei foundation model;
individuare gli utenti più intensivi che potrebbero richiedere un piano tariffario diverso;
scoprire anomalie che potrebbero segnalare usi impropri o bug;
costruire modelli di pricing più accurati, basati sui pattern di consumo reali.

2. Tracciamento dei costi per team: responsabilità senza polemiche

Il vantaggio principale è la possibilità di allocare i costi di invocazione del modello tra business unit, team o progetti diversi tramite gli AWS cost allocation tags. Questo abilita meccanismi di chargeback precisi e una chiara responsabilizzazione dei dipartimenti sull'utilizzo dell'AI.

Si immagini il team marketing, il team di prodotto e il team customer service che usano tutti lo stesso modello Amazon Nova. Senza un tracciamento adeguato, è impossibile sapere quale gruppo sia responsabile di quale parte della fattura. Gli application inference profile permettono di:

creare profili separati per ciascun team o dipartimento;
monitorare i pattern di consumo per individuare i periodi di picco;
impostare controlli sui costi o quote dedicate per ciascun team;
abilitare un chargeback equo verso i centri di costo corretti.

3. Tracciamento per ambiente: dal Dev al Prod

Uno degli aspetti più insidiosi nella gestione dei workloads GenAI è capire come variano i costi tra i diversi ambienti di sviluppo. Gli sviluppatori stanno accumulando bollette salate in fase di test? L'ambiente di produzione è davvero ottimizzato? Gli application inference profile aiutano a:

separare i costi tra sviluppo, staging e produzione;
identificare picchi di costo inattesi durante le fasi di test;
evitare che gli esperimenti in sviluppo facciano saltare il budget;
creare previsioni accurate per la scalabilità in produzione.

Creare un application inference profile

Per creare un application inference profile è possibile utilizzare esclusivamente un'API o l'AWS SDK. Servono 3 elementi principali:

il nome dell'inference profile;
il modello da utilizzare per il profilo;
eventuali tag da associare al profilo.

Di seguito un esempio di creazione di un inference profile:

import boto3

client = boto3.client("bedrock")

response = client.create_inference_profile(
    inferenceProfileName='Customer A Inference Nova Lite',
    description='Inference profile for all workloads for customer A',
    modelSource={
        'copyFrom': 'arn:aws:bedrock:us-west-2:058264544288:inference-profile/us.amazon.nova-lite-v1:0'
    },
    tags=[\
        {\
            'key': 'customer',\
            'value': 'customer a'\
        },\
        {\
            'key': 'environment',\
            'value': 'dev'\
        },\
    ]
)

Come DoiT Cloud Intelligence trasforma il FinOps GenAI

È qui che DoiT Cloud Intelligence dà il meglio di sé, trasformando i dati grezzi di tracciamento in intelligence concretamente azionabile.

DoiT integra nella propria piattaforma di analytics diverse categorie di tag AWS, tra cui gli AWS Cost Allocation Tags. Applicati correttamente agli application inference profile, questi tag diventano strumenti potenti per la gestione dei costi GenAI.

Con DoiT Cloud Intelligence è possibile:

Creare ripartizioni dei costi sofisticate: visualizzare la spesa GenAI su più dimensioni contemporaneamente, per team, per cliente, per ambiente e altro ancora.
Individuare trend e anomalie: l'utilizzo dei tag AWS in DoiT Cloud Intelligence porta numerosi vantaggi, tra cui una ripartizione granulare dei costi che permette di analizzare la spesa per progetto, team, ambiente o qualsiasi altra dimensione rilevante per il business. In questo modo si individuano i pattern di consumo e si rilevano attività insolite che potrebbero indicare inefficienze o problemi.
Stimare i costi futuri con accuratezza: le organizzazioni che adottano un corretto tracciamento dei costi basato sui tag AWS tramite DoiT possono attendersi un miglioramento dell'accuratezza delle previsioni di spesa fino al 20% e un aumento dell'efficienza complessiva del budget di circa il 15%.
Visibilità cross-account: una delle caratteristiche distintive di DoiT è la capacità di integrare gli AWS Organization Tags nei dati di fatturazione in modo trasparente, senza configurazioni aggiuntive. Una funzionalità che risolve un punto critico tipico delle best practice AWS, ossia la distribuzione delle applicazioni su più account.

La differenza DoiT nella gestione dei costi GenAI

DoiT Cloud Intelligence offre vantaggi unici alle organizzazioni che utilizzano Amazon Bedrock:

Un'interfaccia di analytics semplificata

All'interno di DoiT Cloud Intelligence, i tag AWS sono accessibili in diverse sezioni durante la creazione o la modifica dei report:

Sezione Labels: contiene gli AWS cost allocation tags insieme alle label di Google Cloud e ai tag Azure.
Sezione System Labels: include le label generate sistematicamente da DoiT e AWS.
Sezione AWS Organization tags: dedicata ai tag organizzativi per il tracciamento cross-account.

Oltre le basi: casi d'uso avanzati

Combinando gli application inference profile con DoiT Cloud Intelligence si aprono casi d'uso ancora più sofisticati:

Analisi dei costi a livello di funzionalità

Creando profili allineati a specifiche funzionalità di prodotto è possibile sapere con esattezza quanto costa far funzionare ciascuna capability AI. Un dato preziosissimo per le scelte di prioritizzazione e per le strategie di pricing.

Efficienza dei costi nei test A/B

Si sta eseguendo un test A/B tra diversi foundation model o strategie di prompting? Basta creare inference profile separati per ogni variante per confrontare non solo le prestazioni, ma anche l'efficienza dei costi.

Budgeting per progetto

Per le organizzazioni che lavorano per progetti, gli inference profile possono essere assegnati a iniziative specifiche, consentendo un tracciamento puntuale delle spese AI di ciascun progetto.

Come iniziare: un percorso di implementazione semplice

Mettere in pratica questa potente combinazione è sorprendentemente lineare:

Creare i profili tramite l'API di Amazon Bedrock: utilizzare la richiesta CreateInferenceProfile con un endpoint del control plane di Amazon Bedrock.
Pochi i campi obbligatori: bastano un nome del profilo e il model source (un foundation model oppure un inference profile cross-region).
Aggiungere gli AWS cost allocation tags: taggare i profili con le dimensioni adatte al tracciamento dei costi e verificare che siano attivi nelle impostazioni dei cost allocation tag.
Instradare le chiamate ai modelli attraverso i profili: aggiornare il codice applicativo affinché utilizzi l'ARN del profilo invece di chiamare i modelli direttamente.
Connettere DoiT Cloud Intelligence: utilizzare la piattaforma DoiT per trasformare i dati di costo grezzi in insight azionabili tramite un'interfaccia intuitiva.

In conclusione: chiarezza sui costi in un mondo AI complesso

Con workloads AI in costante crescita per scala e importanza, la combinazione di application inference profile e DoiT Cloud Intelligence diventa essenziale per mantenere il controllo finanziario. Anziché navigare a vista sugli investimenti GenAI, questo binomio offre la visibilità e il controllo necessari per prendere decisioni informate, ottimizzare la spesa e garantire la sostenibilità economica delle iniziative AI.

La parte migliore? La soluzione funziona già oggi con i foundation model esistenti di Amazon Bedrock: niente attese per miglioramenti futuri né stravolgimenti dell'architettura attuale. Un passo concreto e immediato per domare il mostro dei costi GenAI nascosto nella fattura AWS.

Quindi, prima della prossima invocazione di un foundation model, conviene chiedersi: si sa esattamente chi la sta pagando? Con gli application inference profile e DoiT Cloud Intelligence, finalmente sì.

Per approfondire i cost allocation tags con DoiT: https://help.doit.com/docs/amazon-web-services/supported-aws-cost-allocation-tags

Visiti https://www.doit.com per scoprire come possiamo aiutarla a gestire i costi della Gen AI.