Machine learning : transformer vos données en actions

Les entreprises qui veulent tirer davantage de valeur de leurs données ont tout intérêt à explorer le machine learning. Voici pourquoi, illustré par des exemples concrets d'entreprises data-driven qui exploitent le ML avec succès.

DoiT-Machine-Learning-Data-DoiT

Comment le ML permet de tirer une vraie valeur métier de vos données

Devenir une organisation data-driven motive les entreprises depuis des années. Conscientes qu'elles regorgent de données capables d'éclairer des décisions stratégiques décisives face à la concurrence, elles déploient sans relâche des stratégies pour en extraire davantage de valeur — avec des résultats inégaux.

Le machine learning (ML) est l'un des domaines technologiques les plus prometteurs en la matière. Lors de Google Next 2022, Irina Farooq, Senior Director, Product Management, Smart Analytics chez Google Cloud, a d'ailleurs prédit que d'ici 2025, 90 % des données seront exploitables grâce au ML.

Voyons ce qui rend la réussite data-driven si difficile, le rôle du ML dans la valorisation des données et les résultats concrets qu'il génère.

Pourquoi les données ne créent pas de valeur

Les études soulignent à quel point les entreprises peinent à exploiter leurs données pour en tirer de la valeur métier. Après une enquête Accenture de 2019 révélant que seules 32 % des entreprises parviennent à valoriser concrètement leurs données, une étude NewVantage de 2021 a montré que seuls 24 % des dirigeants considèrent leur entreprise comme data-driven. Les entreprises gèrent leur infrastructure de données, les déplacent et les rendent accessibles aux utilisateurs, souvent sans feuille de route claire pour en exploiter le potentiel.

Parmi les obstacles à la valorisation des données figurent la culture d'entreprise, le volume colossal de données qui submerge les organisations et les enjeux liés à la propriété et à la confidentialité. Face à ces écueils, de nombreux dirigeants peinent à élaborer des stratégies data réalistes. Certains adoptent un programme centralisé, où une seule équipe extrait, nettoie et agrège les données, ce qui aboutit à une approche uniforme souvent mal alignée avec les besoins spécifiques des utilisateurs finaux. D'autres mobilisent plusieurs équipes pour créer des pipelines de données sur mesure — avec un potentiel de réutilisation limité.

Les entreprises doivent au contraire concevoir des stratégies data incrémentales, capables de produire rapidement de la valeur tout en intégrant la scalabilité dès le départ.

Ce que le machine learning apporte

Le machine learning est une branche de l'intelligence artificielle (IA) qui alimente des algorithmes en données historiques afin d'identifier des schémas et de prédire des résultats futurs. C'est précisément cette capacité à exploiter les données pour faire des prédictions, prendre des décisions ou formuler des recommandations qui le rend si attractif pour les organisations data-driven.

Les algorithmes de ML traitent des données historiques (généralement appelées données d'entraînement) afin de créer un modèle prédictif. Chaque jeu de données ML comprend des variables (features) et des observations (records). Les solutions de ML prédictives doivent identifier les variables indépendantes (entrées) qui pèsent le plus sur la variable dépendante — le résultat que l'on cherche à prédire.

Les modèles de ML non supervisés regroupent et catégorisent les données pour en dégager des schémas plutôt que des résultats prédits. C'est ce qui permet, par exemple, aux plateformes de streaming de contenu d'aider leurs utilisateurs à découvrir des contenus susceptibles de leur plaire grâce aux recommandations et à la recherche.

Comment exploiter efficacement le ML

Le ML n'est pas une baguette magique pour gérer les données. Les entreprises qui s'appuient sur des systèmes hérités devront les moderniser pour qu'ils fonctionnent efficacement avec les solutions de ML. Les parties prenantes doivent veiller à la qualité des données brutes alimentant le jeu d'entraînement à chaque étape du processus, de l'acquisition à la préparation des données jusqu'à l'évaluation des résultats. Cela suppose que la direction porte les solutions de machine learning comme un moyen d'atteindre des objectifs métier clairement identifiés.

L'importance de la qualité des données

Les algorithmes de machine learning entraînés sur des jeux de données de mauvaise qualité produisent des résultats inexacts. Les données brutes issues de scénarios réels seront toujours affectées par du bruit et des valeurs manquantes liés à des erreurs de saisie, à des problèmes techniques, à des événements imprévus ou à d'autres aléas. Or les algorithmes ne sont généralement pas conçus pour gérer les valeurs manquantes, et le véritable schéma de l'échantillon peut être perturbé par le bruit. Un prétraitement des données s'impose avant que l'algorithme ne puisse les exploiter. Cette étape comble les valeurs manquantes, débruite les données, résout les incohérences et écarte les valeurs aberrantes.

Valider votre modèle de ML

Une fois votre modèle de ML construit, il faut évaluer son utilité dans le monde réel. Le choix de la bonne métrique de validation est particulièrement déterminant pour les jeux de données déséquilibrés, où la distribution des classes est fortement asymétrique et où l'échantillon de la classe positive est si réduit que le modèle ne parvient pas à apprendre.

C'est un problème courant dans les initiatives de ML appliquées à la médecine et à la génomique. Imaginez par exemple que vous développiez un algorithme de classification visant à prédire si une personne est atteinte d'un trouble génétique. Si seulement 1 % de la population présente ce trouble, vous pourriez créer un classificateur prédisant systématiquement que la personne n'est pas malade : votre modèle serait précis à 99 % — mais totalement inutile. Ce déséquilibre peut être compensé par des techniques consistant à sous-échantillonner aléatoirement la classe majoritaire et à sur-échantillonner la classe minoritaire, et il peut être détecté à l'aide de métriques de scoring plus appropriées comme le F1-score plutôt que la simple accuracy.

Faire confiance aux données

Lors de Google Next 22, Irina Farooq a évoqué la nécessité de pouvoir voir et faire confiance aux données pour que le ML soit efficace. Cela passe par des outils de catalogage automatisé permettant de découvrir et de gérer ses données depuis un point central. Il faut également pouvoir travailler sur les données en temps réel : il est donc essentiel de s'appuyer sur la combinaison optimale d'outils propriétaires et open source pour permettre à vos équipes d'opérer sur l'ensemble de vos données, puis d'appliquer des analyses en streaming pour les exploiter au fil de la collecte.

Côté confiance, l'explicabilité est devenue un élément clé du ML. Elle attire l'attention sur ce qui se passe à l'intérieur d'un modèle, entre l'entrée et la sortie, et place la transparence au premier plan. L'intelligence artificielle explicable (XAI) s'est ainsi imposée comme un ensemble de processus et de méthodes visant à rendre les résultats produits par les algorithmes de machine learning compréhensibles et fiables. C'est un point essentiel pour les entreprises qui souhaitent mener des initiatives ML responsables.

Optimiser vos modèles

Des boucles de feedback courtes sont également indispensables pour que vos initiatives ML produisent une valeur tangible. L'optimisation itérative de vos modèles de ML réduit l'écart entre la sortie prédite et la sortie réelle, mesuré par une fonction de coût. Pour éviter de produire des modèles inutilisés à l'issue de votre proof of concept ML, il doit exister une forte corrélation entre la fonction de coût optimisée dans votre algorithme et une métrique métier comme le ROI.

L'écriture de tests automatisés, l'adoption de l'intégration et du déploiement continus (CI/CD) et la mise en place de tests utilisateurs efficaces avant le lancement d'un projet ML d'envergure accélèrent considérablement l'optimisation de vos modèles. En appliquant les principes DevOps à chaque étape de la construction d'un système ML, les organisations peuvent tendre vers une culture MLOps mature, dans laquelle les pipelines ML et CI/CD sont automatisés.

Quand le ML révèle de précieux insights

DoiT accompagne de nombreux clients qui appliquent le machine learning à leurs données de manière inventive — avec des résultats impressionnants. En voici quelques exemples :

Une expérience retail fluidifiée

CB4 utilise le ML pour faciliter l'expérience en magasin, aussi bien pour le personnel que pour les clients. Grâce à cette solution, les équipes peuvent effectuer des ajustements simples — commander des unités supplémentaires d'un produit ou sortir un article de la réserve — pour aider les clients et générer de nouvelles ventes. Chaque magasin reçoit une liste personnalisée de recommandations de SKU à pousser, calculée à partir de ses propres tendances de vente et conditions d'exploitation.

CB4 a tiré parti des outils Google Cloud et collaboré avec DoiT pour bâtir un pipeline de données rationalisé, des opérations ML 30 % plus performantes et une meilleure visibilité sur les coûts. Le nouveau système permet également de stocker les données en toute sécurité, en conformité avec le RGPD et d'autres réglementations internationales sur la protection des données. Côté performance, l'entreprise peut intégrer facilement de nouveaux distributeurs à sa solution data et maintenir une haute disponibilité, même en cas de pics de demande ou de montée en charge.

Du storytelling en ligne scalable

Apester aide les entreprises à faire passer leur message via des expériences sociales interactives — quiz, sondages — qui s'intègrent parfaitement à leurs sites web et se diffusent à grande échelle. Avec la croissance de sa base d'utilisateurs et l'augmentation des volumes de données traités, l'entreprise devait adopter une solution de business intelligence (BI) et de data warehousing facilement scalable.

Elle l'a construite autour de Google Cloud, en intégrant Cloud Dataflow, Cloud Dataproc et Cloud Bigtable pour le traitement et l'analyse des données. Grâce à ses capacités natives de ML et de BI, l'entrepôt de données BigQuery est devenu la principale solution analytique d'Apester. Les données stockées dans BigQuery, combinées au travail mené avec les modules Cloud Natural Language, ont posé les bases d'une initiative ML, dans laquelle l'entreprise investit désormais massivement. Elle utilise la plateforme ML Tensorflow pour son pipeline, ce qui lui permet d'accélérer sa réactivité face aux besoins de ses clients, même en montée en charge.

Détection de fraude en temps réel

Spécialiste de la détection de fraude, 24metrics propose une solution baptisée ClickShield, qui aide les entreprises à identifier les utilisateurs frauduleux en temps réel. Il faut généralement plusieurs semaines pour déterminer si les utilisateurs d'une application sont réels ou s'il s'agit de bots ; 24metrics s'appuie sur le ML pour prédire la qualité des utilisateurs. DoiT a aidé l'entreprise à identifier les outils ML adaptés et, après une première session avec l'équipe DoiT, ses Engineers ont pu entraîner leur premier modèle en autonomie.

Insatisfaits des résultats obtenus, ils ont consulté DoiT, qui les a aidés à analyser ces résultats, à identifier les problèmes potentiels dans leur approche d'entraînement ML et à proposer des alternatives. En suivant les recommandations de DoiT, ils ont rapidement développé un modèle bien entraîné, que DoiT les a aidés à déployer de manière économique. 24metrics tablait sur plus de cinq mois pour construire l'algorithme ML et déployer la nouvelle fonctionnalité ; grâce à l'accompagnement de DoiT, le projet n'a pris que deux mois et s'est révélé plus simple que prévu.

Édition de contenu intuitive à grande échelle

Les applications Lightricks telles que Facetune, Videoleap et Photoleap simplifient l'édition de contenu pour les vidéastes professionnels, les graphistes et les créateurs de sites web. Certaines campagnes publicitaires en ligne nécessitant la production quasi instantanée de rapports portant sur plusieurs téraoctets de données, ces applications ingèrent et analysent d'énormes volumes de données — majoritairement mobiles — souvent en quasi temps réel. L'entreprise utilise Google Cloud Dataflow pour traiter les données comportementales des utilisateurs, qui sont ensuite ingérées dans BigQuery pour analyse à grande échelle.

DoiT assure un support continu pour ce programme de machine learning sophistiqué, avec une expertise qui couvre tous les sujets, de l'architecture à la résolution de problèmes. Lightricks étend son programme ML : ses équipes marketing, optimisation produit et moteur de recommandation créent désormais toutes leurs propres modèles. Après avoir démarré avec du ML auto-géré sur Google Cloud Compute Engine, elles migrent progressivement vers les services managés de Vertex AI de Google Cloud pour gagner encore en vitesse de scaling.

Et maintenant ?

Le machine learning n'est peut-être pas la solution complète pour les entreprises aux prises avec leurs données, mais il peut en faire partie. Avec le bon leadership, la bonne culture et les bonnes structures, les entreprises peuvent l'utiliser pour exploiter rapidement et efficacement leurs données et en tirer un maximum de valeur métier. Que vous envisagiez le ML dans le cadre de votre stratégie data ou que vous soyez déjà bien avancé sur ce chemin, DoiT peut vous accompagner pour accélérer et optimiser vos efforts.