Concevoir votre architecture big data sur AWS

Le big data regorge d'informations métier précieuses, mais en tirer pleinement parti reste un défi de taille. Nous vous guidons pour structurer efficacement votre architecture big data sur Amazon Web Services (AWS).

big-data

Les décisions clés pour configurer vos environnements AWS dédiés au big data

Au cœur des immenses volumes de données qui circulent dans votre organisation se cachent les clés de la réussite de votre activité. Le big data regorge d'informations susceptibles d'offrir un avantage concurrentiel à votre entreprise, mais les exploiter pour qu'elles révèlent leurs secrets reste un défi de taille. Le cloud public offre la puissance de calcul nécessaire pour collecter, stocker et analyser efficacement le big data. Nous vous guidons pour structurer votre architecture big data sur Amazon Web Services (AWS) afin d'en tirer un maximum de valeur.

Les défis du big data que résout le cloud public

Historiquement, les exigences du big data faisaient que seules les entreprises capables de financer une puissance de calcul quasi illimitée pouvaient se permettre de l'exploiter. L'avènement du cloud computing et la disponibilité de ressources et services à la demande ont changé la donne. Les utilisateurs peuvent désormais mobiliser des ressources virtuellement infinies, le temps qu'il leur faut, et ne payer que pour ce qu'ils consomment.

Au fil de son évolution, le cloud a offert aux clients une autonomie croissante, leur permettant de se concentrer sur le développement de leur code applicatif et de leurs requêtes analytiques plutôt que sur la gestion des capacités. Aux débuts du cloud, on lançait des instances sur des machines virtuelles et on y installait les applications exécutant son code. Puis les fournisseurs cloud ont commencé à proposer des services managés, prenant en charge une part plus importante de la stack logicielle. Aujourd'hui, le serverless libère les développeurs du provisionnement de serveurs et leur permet de se consacrer à des tâches à plus forte valeur ajoutée.

À mesure que la technologie cloud progresse, des organisations de presque toutes tailles, à condition de l'exploiter correctement, peuvent accéder à la puissance des technologies big data.

Les couches clés de votre architecture big data

Le volume, la variété et la vélocité des données que vous traitez exigent une architecture robuste et flexible, capable de collecter, stocker et traiter ces données souvent en temps réel ou quasi réel. Les entreprises doivent faire évoluer leur stack technologique pour absorber le volume et la variété des données disponibles, et déployer une infrastructure capable de mener ce travail à grande vitesse — souvent en temps réel ou quasi réel.

Pour couvrir l'éventail des tâches qu'exige un programme big data efficace, il vous faudra une architecture multicouche couvrant le stockage, le traitement et la consommation des données. Celle-ci doit faciliter des flux multidirectionnels, car les données peuvent être stockées avant comme après analyse.

Couche de stockage

C'est dans cette couche que les données sont stockées et converties dans un format permettant leur catalogage et leur analyse. Les réglementations de conformité et les politiques de gouvernance dictent la manière dont certains types de données doivent être stockés. Pour autant, votre mode de stockage ne doit pas dicter votre mode de traitement, et inversement.

Accès aux données et gouvernance

Compte tenu des volumes massifs de données qui alimentent votre couche de stockage et des nouveaux actifs et versions générés par leur transformation, leur traitement et leur analyse, vous avez besoin d'un processus de gouvernance efficace pour tout suivre. Le catalogue de données en est un composant essentiel : il combine métadonnées et outils spécialisés de gestion et de recherche pour offrir une interface d'interrogation de vos actifs de données et faire office de source unique de vérité. Le Data Catalog d'AWS Glue sert de metastore central pour les jobs de traitement par lots, quel que soit le service analytique AWS utilisé.

Les données issues du traitement par lots sont généralement stockées dans un data lake, capable d'accueillir d'importants volumes de fichiers de différents formats. Avec AWS Lake Formation, un service conçu pour simplifier et centraliser la gestion des accès, le Data Catalog d'AWS Glue assure le contrôle d'accès aux data lakes Amazon S3 avec la plupart des services analytiques AWS les plus utilisés, dont Amazon Redshift (via Amazon Redshift Spectrum), Amazon Athena, AWS Glue ETL et Amazon EMR (pour les notebooks basés sur Spark).

Stockage objet

Le stockage objet, comme Amazon S3, est idéal pour les data lakes : il permet de stocker tous types de fichiers sans schéma prédéfini ni limite de volume. Il est nativement pris en charge par les frameworks big data tels que Spark, Hive et Presto, et offre une durabilité des objets de 99,999999999 % sur plusieurs zones de disponibilité.

Vous devrez segmenter votre data lake en zones landing, raw, trusted et curated pour stocker les données selon leur état de préparation à la consommation. Les données du data lake sont généralement ingérées et stockées sans définition préalable de schéma, ce qui réduit le temps requis pour l'ingestion et la préparation avant analyse.

Stockage de flux

Les flux ou événements de données en temps réel peuvent être stockés via un produit de stream storage tel qu'Amazon Kinesis. Avec Amazon Kinesis Data Streams, les consommateurs peuvent lire directement depuis le flux pour des analyses en temps réel ; ceux qui souhaitent conserver les données pour une analyse ultérieure peuvent recourir à Amazon Kinesis Data Firehose pour les acheminer vers une cible (data lake, entrepôts de données ou services analytiques) et procéder à l'analyse plus tard.

Vous pouvez utiliser les crawlers AWS Glue pour découvrir les nouveaux datasets ou partitions ajoutés depuis le flux. Ils peuvent explorer plusieurs data stores en une seule exécution et en extraire les métadonnées pour alimenter le Data Catalog d'AWS Glue avec des tables. Les jobs Extract, Transform, Load (ETL) que vous définissez dans AWS Glue lisent et écrivent dans les data stores identifiés dans les tables source et cible du Data Catalog.

Couche d'analyse

Selon le contexte, vous pouvez extraire de la valeur métier de votre big data via différents types d'analytics : par lots, interactifs, en flux ou prédictifs.

L'analytique par lots traite les données par intervalles de quelques minutes à plusieurs jours, pour des cas d'usage tels que les rapports de ventes quotidiens ou hebdomadaires. Amazon EMR est une solution cloud big data complète pour réaliser des analyses par lots avec un framework de traitement comme Apache Spark.

L'analytique interactive associe systèmes de bases de données distribuées et capacités de rendu pour optimiser le potentiel analytique des technologies de Business Intelligence (BI). Elle s'applique aux situations où l'on souhaite obtenir des réponses du système en quelques secondes, par exemple pour des dashboards en self-service. Là encore, Amazon EMR fait l'affaire, cette fois avec Spark ou avec le moteur de requêtes SQL Presto. Pour les jeux de données structurés volumineux, Amazon Redshift convient parfaitement. Amazon Athena est adapté aux données non structurées, semi-structurées et structurées stockées dans Amazon S3.

L'analytique en streaming s'utilise pour les applications nécessitant des données en temps réel, comme les alertes anti-fraude. Vous pouvez construire un pipeline d'analyse quasi temps réel avec Amazon EMR couplé à Spark Streaming ou avec Amazon Kinesis Data Analytics.

L'analytique prédictive s'appuie sur le machine learning pour anticiper les comportements futurs à partir de l'historique d'achat, de l'historique de recherche, des données démographiques, des évaluations et d'autres catégories. Amazon SageMaker est une bonne solution pour l'analytique prédictive : il offre un point central pour exécuter toutes vos tâches de machine learning et fournit l'infrastructure entièrement managée, les outils et les workflows nécessaires pour construire, entraîner et déployer vos modèles.

Couche de consommation

La couche de consommation est celle où votre organisation exploite les données via des moteurs analytiques, des requêtes, des applications d'IA et de machine learning et des outils de visualisation, afin d'extraire des informations métier précieuses de gros volumes de données. Les utilisateurs se répartissent généralement en deux catégories :

Les utilisateurs métier souhaitent donner du sens aux données via des applications de visualisation comme Tableau ou un outil BI entièrement managé comme Amazon QuickSight. Ils peuvent aussi recourir à l'interface open source Kibana pour visualiser les données issues d'Elasticsearch.

La seconde catégorie regroupe les data scientists, qui souhaitent accéder à un endpoint pour leurs analyses statistiques, par exemple avec un outil comme R Studio. Ils peuvent également utiliser un driver JDBC pour connecter Amazon Athena ou Amazon Redshift et interroger directement les données.

Bonnes pratiques d'architecture big data

Bien que chaque cas d'usage soit différent, certaines pratiques ont plus de chances de produire des résultats probants lorsque vous concevez votre processus big data dans le cloud public.

Concentrez-vous sur la valeur métier que vous souhaitez tirer de votre programme big data. Une fois que vous disposez d'une vision détaillée des objectifs métier que vos initiatives big data doivent vous aider à atteindre, appuyez-vous dessus pour orienter la livraison agile des technologies nécessaires à leur mise en œuvre.
Découplez les systèmes pour permettre l'intégration de nouveaux outils et technologies sans perturbation majeure. Plutôt que de miser sur de grandes applications monolithiques, séparez-les en sous-systèmes plus petits, afin de pouvoir itérer sur chacun et véritablement les faire évoluer dans la durée.
Adoptez une vision globale lors de la construction de votre architecture, en l'abordant comme un programme agile aligné sur votre vision stratégique mais intégrant des templates qui la rendront évolutive.
Mettez en place un programme de gouvernance des données complet et fiable pour assurer la sécurité de vos données.
Utilisez le bon outil pour chaque tâche : tenez compte de la structure des données, des exigences de latence, du débit et des modes d'accès. Parmi ces critères, la structure des données et les modes d'accès sont les plus déterminants.
Ne réinventez pas la roue : tirez parti des services managés et serverless pour bénéficier de l'expertise d'ingénierie et des bonnes pratiques investies dans ces technologies. Ces services sont scalables, élastiques, disponibles, fiables et sécurisés, et ne demandent que peu, voire aucune administration.
Gardez un œil sur les coûts. Big data ne rime pas forcément avec gros budget.

La démarche d'architecture big data de DoiT

DoiT possède une expertise pointue et des compétences officielles de partenaire AWS sur les domaines data et analytics. Nous aidons nos clients à répondre aux questions liées à l'architecture comme à l'exploitation, et à atteindre leurs objectifs plus rapidement, avec moins de risques et de frictions.

Nous démarrons en examinant le modèle économique du client, ses produits et services, la structure de ses équipes, sa stratégie de release et son exploitation, avant de cibler ses besoins en matière de données, ses ressources et ses objectifs. Voici quelques-unes des questions que nous pouvons poser :

Disposez-vous déjà d'une solution big data ?
Si oui, est-elle on-premises ou déjà dans le cloud ?
Quelles sont les principales applications et les principaux consommateurs ? Reporting BI, ML, etc.
Quelles sont les sources de données (producteurs) ? Pensez volume, vitesse et structure.
Décrivez les étapes du cycle de vie de la donnée, de la récupération au traitement jusqu'à la présentation.
Comment les données sensibles sont-elles gérées ? Quelles réglementations devez-vous respecter ?
Comment vos équipes sont-elles structurées ? Côté métier comme côté technique.
Quelle méthodologie utilisez-vous pour la gestion de projet ?
Quel est le niveau d'expérience AWS de vos équipes techniques ?
Quels sont vos points de friction ?
Quels cas d'usage souhaitez-vous couvrir ?
Quelles sont vos priorités et vos attentes ?

Les réponses à ces questions déterminent l'approche la plus adaptée, qui peut prendre l'une des formes suivantes :

Une Migration Readiness Assessment (MRA) : nous y avons recours pour les clients qui prévoient de migrer vers AWS. Elle repose sur une analyse approfondie via un questionnaire étendu (80 questions) afin de collecter des faits ainsi que les observations du client et de l'intervieweur, et de définir les prochaines étapes possibles. Nous produisons ensuite un rapport complet, partagé avec le client, pour évaluer sa maturité cloud et identifier ce qu'il lui reste à faire pour réussir sa migration. Cela permet de définir les chemins de migration, les calendriers, les ressources, l'inventaire des actifs et leurs dépendances, ainsi que la documentation technique à mobiliser. La MRA peut également servir à demander des crédits gratuits auprès d'AWS.
Une Well-Architected Review (WAR) : utile pour les clients déjà onboardés qui ont besoin d'une évaluation de leur état actuel, en vue d'identifier les actions et priorités pour corriger les écarts constatés. La WAR repose sur un cadre d'évaluation développé par AWS et largement adopté dans l'industrie, articulé autour de six piliers : excellence opérationnelle, sécurité, fiabilité, efficacité des performances, optimisation des coûts et durabilité. Un financement par crédits jusqu'à 5 000 $ est également disponible pour la remédiation des

environnements de production.

Formation : l'enablement client de DoiT inclut des formations sur des services AWS spécifiques. Par exemple, les Immersion Days proposent des deep dives qui apportent non seulement des connaissances conceptuelles, mais aussi une expérience concrète.
Prototypage (proof of concept) : DoiT accompagne les clients dans l'évaluation d'une solution en définissant des critères de succès basés sur des KPI et en les guidant tout au long de la mise en œuvre technique, lors de sessions hebdomadaires destinées à lever doutes et obstacles et à conseiller sur les optimisations à mettre en place. Une fois le prototypage terminé, nous mesurons les résultats au regard des KPI pour évaluer l'adéquation, dégager les enseignements et définir les prochaines étapes.

Prochaines étapes

Si vous souhaitez exploiter pleinement vos données pour la valeur métier considérable qu'elles peuvent apporter, contactez DoiT pour concevoir votre architecture big data sur AWS.