Architettura big data su AWS: come progettarla

I big data custodiscono informazioni di business preziose, ma sfruttarne appieno il valore è una sfida enorme. La accompagniamo nella progettazione di un'architettura big data efficace su Amazon Web Services (AWS).

big-data

Le decisioni chiave nella configurazione di ambienti AWS per i big data

Nell'enorme massa di dati che affluisce nella Sua organizzazione si nascondono le chiavi per il successo del business. I big data sono ricchi di informazioni preziose, capaci di offrire alla Sua azienda un vantaggio competitivo, ma estrarne i segreti è un'impresa tutt'altro che semplice. Il public cloud mette a disposizione la potenza di calcolo necessaria per raccogliere, archiviare e analizzare i big data in modo efficace. La accompagniamo nella progettazione della Sua architettura big data su Amazon Web Services (AWS), per ottenere risultati ottimali.

Le sfide dei big data che il public cloud risolve

In passato, le esigenze dei big data facevano sì che soltanto le aziende in grado di finanziare una potenza di calcolo pressoché illimitata potessero permettersi di sfruttarli. L'avvento del cloud computing e la disponibilità di risorse e servizi di calcolo on-demand hanno cambiato le carte in tavola. Oggi gli utenti possono attingere a risorse virtualmente infinite, utilizzarle solo per il tempo necessario e pagare esclusivamente per ciò che consumano.

Con l'evoluzione del cloud, i clienti hanno acquisito un'autonomia sempre maggiore, potendosi concentrare sullo sviluppo del codice applicativo e delle query analitiche anziché sul dimensionamento della capacità. Nei primi anni del cloud, i clienti avviavano istanze su macchine virtuali e vi installavano le applicazioni che eseguivano il loro codice. In un secondo momento, i provider cloud hanno iniziato a offrire servizi gestiti, assumendosi la responsabilità di una porzione più ampia dello stack software. Oggi, il serverless computing libera gli sviluppatori dal tempo dedicato al provisioning dei server e consente loro di concentrarsi su attività a maggior valore aggiunto.

Con il continuo progresso della tecnologia cloud, organizzazioni di quasi qualsiasi dimensione possono accedere alla potenza delle tecnologie big data, a patto di saperle sfruttare correttamente.

I livelli chiave dell'architettura big data

Il volume, la varietà e la velocità dei dati con cui ha a che fare richiedono un'architettura solida e flessibile, capace di raccoglierli, archiviarli ed elaborarli spesso in tempo reale o quasi. Le aziende devono evolvere il proprio stack tecnologico per gestire la mole e l'eterogeneità dei dati a disposizione e dotarsi di un'infrastruttura in grado di operare alla massima velocità — spesso, appunto, in tempo reale o quasi.

Per coprire l'ampia gamma di attività che un programma big data efficace richiede, serve un'architettura multilivello che gestisca archiviazione, elaborazione e consumo dei dati. Deve inoltre supportare flussi multidirezionali, perché i dati possono essere archiviati sia prima sia dopo l'analisi.

Livello di archiviazione

È il livello in cui i dati vengono archiviati e convertiti in un formato che ne consente la catalogazione e l'analisi. Le normative di compliance e le policy di governance stabiliscono come archiviare determinate categorie di dati. Tuttavia, il modo in cui archivia i dati non dovrebbe condizionare il modo in cui li elabora, e viceversa.

Accesso ai dati e governance

Dati gli enormi volumi che confluiscono nel livello di archiviazione e i nuovi data asset e versioni generati da trasformazione, elaborazione e analisi, è indispensabile un processo di data governance efficace per tenere traccia di tutto. Un componente chiave della data governance è il data catalog, che combina metadati e strumenti specializzati di gestione e ricerca dei dati per offrire un'interfaccia con cui interrogare i Suoi data asset, fungendo da fonte unica di verità. L'AWS Glue Data Catalog svolge il ruolo di metastore centrale per i job di batch processing, indipendentemente dal servizio analitico AWS utilizzato per l'elaborazione.

I dati provenienti dalle operazioni di batch processing vengono solitamente archiviati in un data lake, capace di accogliere grandi volumi di file in formati eterogenei. Nel caso di AWS Lake Formation, un servizio che semplifica e centralizza la gestione degli accessi, l'AWS Glue Data Catalog fornisce il controllo degli accessi per i data lake su Amazon S3 con i servizi analitici AWS più diffusi, tra cui Amazon Redshift (tramite Amazon Redshift Spectrum), Amazon Athena, AWS Glue ETL e Amazon EMR (per i notebook basati su Spark).

Object storage

L'object storage come Amazon S3 è la scelta ideale per i data lake, perché consente di archiviare file di qualsiasi tipo senza schemi predefiniti né limiti di volume. È supportato nativamente da framework big data come Spark, Hive e Presto e offre una durabilità degli oggetti del 99,999999999% su più Availability Zone.

Sarà necessario suddividere il data lake in zone di landing, raw, trusted e curated, così da archiviare i dati in funzione del loro grado di prontezza al consumo. Di norma i dati vengono ingeriti e archiviati nel data lake senza alcuna definizione preliminare di schema, per ridurre i tempi di ingestion e preparazione prima dell'analisi.

Stream storage

I flussi di dati o gli eventi in tempo reale possono essere archiviati con un prodotto di stream storage come Amazon Kinesis. Con Amazon Kinesis Data Streams, i consumer possono leggere direttamente dallo stream per analisi in tempo reale; chi invece preferisce conservare i dati per analisi successive può usare Amazon Kinesis Data Firehose per recapitarli a una destinazione (data lake, data warehouse o servizi analitici) ed eseguire l'analisi in un secondo momento.

Per individuare nuovi dataset o partizioni aggiunti dallo stream può ricorrere ai crawler di AWS Glue. Sono in grado di effettuare il crawling di più data store in una singola esecuzione, estraendo i metadati per popolare l'AWS Glue Data Catalog con tabelle. I job di Extract, Transform and Load (ETL) definiti in AWS Glue leggono e scrivono dai data store identificati nelle tabelle source e target del Data Catalog.

Livello di analisi

A seconda del contesto, può estrarre valore di business dai Suoi big data ricorrendo a diverse tipologie di analisi: batch, interattiva, in streaming o predittiva.

L'analisi batch elabora i dati a intervalli che vanno dai minuti ai giorni, per applicazioni come i report di vendita giornalieri o settimanali. Amazon EMR è una soluzione cloud big-data completa con cui eseguire analisi batch su un framework di elaborazione come Apache Spark.

L'analisi interattiva combina sistemi di database distribuiti e capacità di rendering per valorizzare al massimo il potenziale analitico delle tecnologie di Business Intelligence (BI). È adatta agli scenari in cui occorre ottenere risposte dal sistema in pochi secondi, come i dashboard self-service. Anche in questo caso può ricorrere ad Amazon EMR, questa volta con Spark o con il motore di query SQL Presto. Per dataset strutturati di grandi dimensioni Amazon Redshift è una scelta efficace, mentre Amazon Athena è indicato per dati non strutturati, semi-strutturati e strutturati conservati in Amazon S3.

Lo streaming analytics è destinato alle applicazioni che richiedono dati in tempo reale, come gli alert antifrode. Può costruire una pipeline di analisi quasi in tempo reale con Amazon EMR e Spark Streaming, oppure con Amazon Kinesis Data Analytics.

L'analisi predittiva si appoggia al machine learning per prevedere comportamenti futuri sulla base di cronologia degli acquisti, cronologia delle ricerche, dati demografici, valutazioni e altre categorie. Amazon Sagemaker è una soluzione valida per l'analisi predittiva: offre un punto centrale per tutte le attività di machine learning, fornendo infrastruttura, strumenti e workflow completamente gestiti per costruire, addestrare e distribuire i Suoi modelli.

Livello di consumo

Nel livello di consumo l'organizzazione lavora sui dati con motori analitici, query, applicazioni di AI e machine learning e strumenti di data visualization, per estrarre informazioni preziose da grandi volumi di dati. Gli utenti rientrano in genere in due categorie:

Gli utenti business vogliono dare un senso ai dati con applicazioni di visualizzazione come Tableau o con uno strumento BI completamente gestito come Amazon Quicksight. In alternativa, possono usare l'interfaccia open-source Kibana per visualizzare i dati provenienti da Elasticsearch.

La seconda categoria è quella dei data scientist, che hanno bisogno di un endpoint per l'analisi statistica, ad esempio tramite uno strumento come R Studio. Possono inoltre utilizzare un driver JDBC per connettersi ad Amazon Athena o Amazon Redshift e interrogare i dati direttamente.

Best practice per l'architettura big data

Anche se ogni caso d'uso è a sé, alcune pratiche aumentano sensibilmente le probabilità di successo nella progettazione di un processo big data sul public cloud.

Si concentri sul valore di business che vuole ricavare dal Suo programma big data. Una volta chiariti gli obiettivi che le iniziative big data devono aiutarLa a raggiungere, usi questa visione per orientare l'erogazione agile delle tecnologie da implementare.
Disaccoppi i sistemi, così da poter integrare nuovi strumenti e tecnologie senza grandi disservizi. Anziché affidarsi a grandi applicazioni monolitiche, le scomponga in sistemi più piccoli, in modo da iterare su ogni sottosistema ed evolvere realmente nel tempo.
Adotti una visione olistica nella costruzione dell'architettura, affrontandola come un programma agile che accolga la Sua visione strategica e integri al tempo stesso template che la rendano scalabile.
Si assicuri di disporre di un programma di data governance completo e affidabile, per mantenere i dati al sicuro.
Usi lo strumento giusto per ogni attività: valuti struttura dei dati, requisiti di latenza, throughput e pattern di accesso. Tra questi, struttura dei dati e pattern di accesso sono i fattori più importanti.
Non reinventi la ruota: sfrutti i servizi gestiti e serverless per beneficiare dell'expertise ingegneristica e delle best practice già consolidate in queste tecnologie. Sono scalabili, elastici, disponibili, affidabili e sicuri, e richiedono un'amministrazione minima o nulla.
Tenga d'occhio i costi. Big data non significa per forza grandi costi.

Il processo DoiT per l'architettura big data

DoiT vanta un'esperienza approfondita e competenze ufficiali di partner AWS in ambito dati e analytics. Aiutiamo i clienti ad affrontare sia le questioni di architettura sia quelle operative, supportandoli nel raggiungere i propri obiettivi più rapidamente, con meno rischi e meno attriti.

Il processo prende avvio dall'analisi del modello di business del cliente, dei prodotti e servizi offerti, della struttura dei team, della strategia di rilascio e delle operations, per poi concentrarsi sulle esigenze, sulle risorse e sugli obiettivi legati ai dati. Ecco alcune delle domande che potremmo porre:

Dispone già di una soluzione big data?
Se sì, è on-premises o già nel cloud?
Quali sono le applicazioni e i consumer principali? Reportistica BI, ML, ecc.
Quali sono le fonti dei dati (producer)? Pensi a volume, velocità e struttura.
Descriva le fasi attraversate dai dati, dal recupero ed elaborazione fino alla presentazione.
Come vengono gestiti i dati sensibili? Quali normative deve rispettare?
Come sono strutturati i team, sia business sia tech?
Quale metodologia adotta per la gestione dei progetti?
Quanto sono esperti in AWS i membri del Suo team tecnico?
Quali sono i Suoi pain point?
Quali casi d'uso intende coprire?
Quali sono le Sue priorità e aspettative?

Le risposte a queste domande indirizzeranno l'approccio più adeguato, che potrà essere uno dei seguenti:

Migration Readiness Assessment (MRA): è il percorso pensato per i clienti che intendono migrare ad AWS. Prevede un'analisi approfondita basata su un questionario esteso (80 domande) per raccogliere fatti, osservazioni del cliente e dell'intervistatore e definire i possibili passi successivi. Realizziamo poi un report completo che condividiamo con il cliente per valutare la sua maturità cloud e ciò che occorre per portare a termine con successo la migrazione. Aiuta a definire percorsi di migrazione, tempistiche, risorse, inventario degli asset e relative dipendenze e la documentazione tecnica da utilizzare. L'MRA può essere usato anche per richiedere crediti gratuiti ad AWS.
Una Well-Architected Review (WAR): utile per i clienti già onboarded che desiderano una valutazione dello stato attuale, per individuare azioni e priorità con cui correggere gli scostamenti rilevati. La WAR si basa su un framework di valutazione sviluppato da AWS e adottato dal settore, articolato in sei pilastri: eccellenza operativa, sicurezza, affidabilità, efficienza delle prestazioni, ottimizzazione dei costi e sostenibilità. Per le attività di remediation è disponibile anche un finanziamento in crediti fino a 5.000 dollari per

gli ambienti di produzione.

Formazione: il customer enablement di DoiT comprende attività di formazione su specifici servizi AWS. Gli Immersion Days, ad esempio, prevedono approfondimenti che uniscono conoscenza concettuale ed esperienza pratica.
Prototipazione (proof of concept): DoiT affianca i clienti nella valutazione di una soluzione definendo criteri di successo basati sui KPI e guidandoli nell'implementazione tecnica, attraverso sessioni a cadenza settimanale per dissipare dubbi, rimuovere ostacoli e suggerire ottimizzazioni. Al termine della prototipazione misuriamo i risultati rispetto ai KPI, per stabilire l'effettiva idoneità, le lezioni apprese e i passi successivi.

Prossimi passi

Se desidera sfruttare i Suoi dati per l'enorme valore di business che possono generare, contatti DoiT per progettare il Suo processo big data su AWS.