Machine learning: insight concreti dai tuoi dati

Le aziende che vogliono ottenere più valore dai propri dati dovrebbero guardare al machine learning. Spieghiamo perché e raccontiamo alcune realtà data-driven che lo stanno usando con successo.

DoiT-Machine-Learning-Data-DoiT

Come il ML aiuta a trasformare i dati in valore di business

Diventare più data-driven è un obiettivo che spinge le aziende ormai da anni. Consapevoli di disporre di una quantità enorme di dati capaci di guidare scelte strategiche decisive sul fronte competitivo, perseguono senza sosta strategie per estrarne più valore, con risultati alterni.

Un ambito tecnologico che apre prospettive enormi in questa direzione è il machine learning (ML). A Google Next 2022, Irina Farooq, Senior Director, Product Management, Smart Analytics di Google Cloud, ha previsto che entro il 2025 il 90% dei dati sarà azionabile grazie al ML.

Vediamo perché il successo data-driven è così difficile da raggiungere, qual è il ruolo del ML nell'estrazione di valore dai dati e quali risultati concreti sta producendo.

Perché i dati non si traducono in valore

Le ricerche mettono in luce le difficoltà che le aziende incontrano nel tradurre i propri dati in valore di business. Dopo che un sondaggio Accenture del 2019 aveva rivelato che solo il 32% delle aziende riesce a generare valore tangibile dai propri dati, uno studio NewVantage del 2021 ha rilevato che soltanto il 24% dei dirigenti considera la propria azienda davvero data-driven. Le imprese gestiscono l'infrastruttura dati, li spostano e li mettono a disposizione degli utenti, spesso senza una roadmap chiara per cogliere il potenziale di tutte queste informazioni.

Tra gli ostacoli alla valorizzazione dei dati ci sono la cultura aziendale, la mole imponente di dati che invade le organizzazioni e i timori legati alla proprietà e alla privacy. Davanti a queste difficoltà, molti leader faticano a definire strategie realistiche. Alcuni adottano un programma centralizzato, con un unico team che si occupa di estrazione, pulizia e aggregazione dei dati: ne deriva un approccio uniforme, spesso poco allineato alle esigenze specifiche degli utenti finali. Altri ricorrono invece a team separati per costruire pipeline su misura, con scarsi margini di riutilizzo.

Quello che serve, al contrario, sono strategie dati incrementali, pensate per generare valore in tempi rapidi ma con la scalabilità integrata fin da subito.

Come può aiutare il machine learning

Il machine learning è una branca dell'intelligenza artificiale (AI) che alimenta gli algoritmi con dati storici per individuare pattern e prevedere risultati futuri. È proprio questa capacità di usare i dati per fare previsioni, prendere decisioni o formulare raccomandazioni a renderlo interessante per le organizzazioni data-driven.

Gli algoritmi di ML elaborano dati storici (i cosiddetti training data) per costruire un modello predittivo. Ogni dataset di ML è composto da variabili (features) e osservazioni (record). Le soluzioni di ML predittivo devono individuare le variabili indipendenti (gli input) che hanno maggiore influenza sulla variabile dipendente, ovvero il risultato che si vuole prevedere.

I modelli di ML non supervisionati raggruppano e categorizzano i dati per individuare pattern, anziché prevedere risultati. È così, per esempio, che le piattaforme di streaming aiutano gli utenti a scoprire contenuti potenzialmente interessanti tramite raccomandazioni e ricerche.

Come sfruttare il ML in modo efficace

Il ML non è una bacchetta magica per la gestione dei dati. Le aziende che lavorano con sistemi legacy dovranno modernizzarli per renderli compatibili con le soluzioni di ML. Tutti gli stakeholder coinvolti devono dare priorità alla qualità dei dati grezzi che alimentano il dataset di training, in ogni fase del processo: dall'acquisizione alla preparazione fino alla valutazione dei risultati. Questo significa che la leadership deve sostenere le soluzioni di machine learning come leva per raggiungere obiettivi di business chiaramente definiti.

L'importanza della qualità dei dati

Gli algoritmi di machine learning addestrati su dataset di scarsa qualità producono risultati imprecisi. I dati grezzi raccolti in scenari reali sono sempre influenzati da rumore e valori mancanti generati da errori manuali, problemi tecnici, eventi imprevisti e altre cause. Gli algoritmi, però, non sono in genere progettati per gestire i valori mancanti, e il rumore può alterare il vero pattern del campione. Per questo è necessario un preprocessing dei dati prima che l'algoritmo possa elaborarli: una fase che colma i valori mancanti, riduce il rumore, risolve le incoerenze ed elimina gli outlier.

Validare il modello di ML

Una volta costruito il modello di ML, occorre valutarne l'utilità nel mondo reale. Scegliere la metrica di validazione corretta è particolarmente importante con i dataset sbilanciati, in cui la distribuzione delle classi è fortemente asimmetrica e il campione della classe positiva è talmente ridotto da impedire al modello di apprendere.

È un problema ricorrente nelle iniziative di ML in ambito medico e genomico. Ipotizziamo, ad esempio, di sviluppare un algoritmo di classificazione che prevede se una persona sia affetta o meno da una malattia genetica. Se solo l'1% della popolazione presenta tale patologia, si potrebbe costruire un classificatore che prevede sempre l'assenza della malattia: il modello risulterebbe accurato al 99%, ma del tutto inutile. Questo squilibrio si può gestire con tecniche di undersampling casuale della classe maggioritaria e oversampling della classe minoritaria, e si può intercettare con metriche di scoring più appropriate, come l'F1-score al posto dell'accuracy.

Avere fiducia nei dati

A Google Next 22, Irina Farooq ha sottolineato come, perché il ML sia efficace, occorra poter vedere i dati e fidarsi di essi. Significa adottare strumenti di catalogazione automatica per scoprire e gestire i dati da un unico punto centrale. È inoltre indispensabile poterli analizzare in tempo reale: per questo è importante affidarsi alla combinazione ottimale di strumenti proprietari e open-source, così che i team possano lavorare su tutti i dati e applicare la streaming analytics man mano che vengono raccolti.

Sul fronte della fiducia, l'explainability è diventata un elemento centrale del ML: porta l'attenzione su ciò che accade dentro un modello tra input e output e dà nuovo peso alla trasparenza. L'Explainable artificial intelligence (XAI) si è affermata come un insieme di processi e metodi per rendere comprensibili e affidabili i risultati e gli output prodotti dagli algoritmi di machine learning. È un aspetto fondamentale per chiunque voglia portare avanti iniziative di ML responsabili.

Ottimizzare i modelli

Anche cicli di feedback brevi sono essenziali perché le iniziative di ML producano valore reale. L'ottimizzazione iterativa dei modelli riduce il margine di errore tra l'output previsto e quello reale e si misura attraverso una funzione di costo. Per evitare di costruire modelli inutilizzati con il proprio proof of concept, deve esserci una correlazione forte tra la funzione di costo ottimizzata nell'algoritmo di ML e una metrica di business come il ROI.

Pratiche come la scrittura di test automatizzati, l'adozione della continuous integration e continuous delivery (CI/CD) e un user testing efficace prima del lancio di un'iniziativa di ML completa accelerano in modo significativo il processo di ottimizzazione dei modelli. Applicando i principi DevOps a ogni fase della costruzione del sistema di ML, le organizzazioni possono evolvere verso una cultura MLOps matura, in cui sia le pipeline di ML sia quelle di CI/CD sono automatizzate.

Dove il ML sta generando insight di valore

DoiT collabora con numerosi clienti che applicano il machine learning ai propri dati in modo creativo, con risultati notevoli. Eccone alcuni esempi:

Un'esperienza retail più fluida

CB4 usa il ML per semplificare l'esperienza in negozio sia per il personale di vendita sia per i clienti. Grazie alla soluzione basata su ML, gli addetti possono compiere semplici interventi come ordinare unità aggiuntive di un prodotto o prelevarne un altro dal magazzino per servire i clienti e generare nuove vendite. Ogni punto vendita riceve un elenco personalizzato di raccomandazioni sulle SKU (stock-keeping units) di cui potrebbe vendere di più, costruito sulle proprie dinamiche di vendita e condizioni operative.

Insieme a DoiT, CB4 ha sfruttato gli strumenti di Google Cloud per costruire una pipeline di dati ottimizzata, operazioni di ML più performanti del 30% e una migliore visibilità sui costi. Il nuovo sistema aiuta inoltre l'azienda a garantire un'archiviazione sicura dei dati nel rispetto del GDPR e di altre normative internazionali sulla protezione dei dati. Sul piano delle prestazioni, consente di integrare facilmente nuovi retailer nella propria soluzione dati e di mantenere un'elevata disponibilità anche nei picchi di domanda e in fase di scaling.

Storytelling online scalabile

Apester aiuta le aziende a veicolare il proprio messaggio tramite esperienze social interattive come quiz e sondaggi, integrabili senza attriti nei loro siti e distribuibili su larga scala. Con la crescita del numero di utenti è cresciuto anche il volume di dati gestiti, e l'azienda ha avuto bisogno di adottare una soluzione di business intelligence (BI) e data warehousing facilmente scalabile.

L'ha costruita attorno a Google Cloud, integrando Cloud Dataflow, Cloud Dataproc e Cloud Bigtable per l'elaborazione dei dati e l'analytics. Grazie alle sue funzionalità native di ML e BI, il data warehouse BigQuery è diventato la principale soluzione di analytics di Apester. I dati conservati in BigQuery e il lavoro dell'azienda con i moduli di Cloud Natural Language hanno gettato le basi per un'iniziativa di ML, in cui Apester sta ora investendo molto. Per la propria pipeline utilizza la piattaforma di ML Tensorflow, che le consente di rispondere più rapidamente alle esigenze dei clienti anche in fase di crescita.

Rilevamento delle frodi in tempo reale

Specializzata in fraud detection, 24metrics propone una soluzione chiamata ClickShield, che aiuta le aziende a identificare gli utenti fraudolenti in tempo reale. Di solito occorrono settimane per stabilire se gli utenti di un'app sono persone reali o bot, ma 24metrics integra il ML nelle proprie soluzioni per prevedere la qualità degli utenti. DoiT ha aiutato l'azienda a individuare gli strumenti di ML più adatti e, dopo una sessione iniziale con il team DoiT, il cliente è riuscito ad addestrare in autonomia il primo modello.

Insoddisfatti dei risultati, si sono rivolti nuovamente a DoiT, che li ha aiutati ad analizzarli, a individuare possibili criticità nell'approccio di training e a proporre alternative. Una volta seguite le raccomandazioni di DoiT, hanno sviluppato rapidamente un modello ben addestrato, che DoiT ha contribuito a mettere in produzione in modo conveniente. 24metrics aveva stimato più di cinque mesi per realizzare l'algoritmo di ML e rilasciare la nuova funzionalità: con il supporto di DoiT ne sono bastati due, con un'esperienza più semplice del previsto.

Editing di contenuti intuitivo su larga scala

Le app di Lightricks come Facetune, Videoleap e Photoleap semplificano l'editing dei contenuti per videomaker professionisti, graphic designer e web builder. Poiché alcune campagne pubblicitarie online richiedono report quasi istantanei su diversi terabyte di dati, queste app acquisiscono e analizzano enormi volumi di dati prevalentemente mobile, spesso quasi in tempo reale. L'azienda utilizza Google Cloud Dataflow per elaborare i dati sul comportamento degli utenti, che vengono poi acquisiti in BigQuery per l'analisi su larga scala.

DoiT fornisce un supporto continuativo a questo articolato programma di machine learning, con consulenza che spazia dall'architettura al problem solving. Lightricks sta ampliando il proprio programma di ML: i team marketing, di ottimizzazione del prodotto e del motore di raccomandazione stanno tutti costruendo modelli di machine learning. Partita da un ML self-managed su Google Cloud Compute Engine, l'azienda sta migrando progressivamente verso i servizi gestiti di Vertex AI di Google Cloud per uno scaling ancora più rapido.

I prossimi passi

Il machine learning può non essere la soluzione completa per le aziende alle prese con i propri dati, ma può senza dubbio farne parte. Con la giusta leadership, la cultura adeguata e le strutture appropriate, le aziende possono usare il ML per valorizzare i propri dati in modo rapido ed efficace, estraendone il massimo valore di business. Sia che stiate valutando il ML come tassello della vostra soluzione dati, sia che siate già a buon punto sul percorso, DoiT può offrire supporto e consulenza per accelerare e ottimizzare i vostri sforzi.