Mit Machine Learning zu umsetzbaren Daten-Insights

Unternehmen, die mehr aus ihren Daten herausholen wollen, sollten sich mit Machine Learning beschäftigen. Wir erklären, warum – und stellen datengetriebene Unternehmen vor, die ML erfolgreich einsetzen.

DoiT-Machine-Learning-Data-DoiT

Wie ML echten Geschäftswert aus Ihren Daten holt

Datengetrieben zu arbeiten – dieses Ziel treibt Unternehmen seit Jahren an. Im Bewusstsein, auf einer Flut von Daten zu sitzen, mit denen sich der Wettbewerb abhängen ließe, verfolgen sie unermüdlich Strategien, um mehr aus diesen Daten herauszuholen – mit durchwachsenen Ergebnissen.

Eine Technologie, die hier enormes Potenzial bietet, ist Machine Learning (ML). Auf der Google Next 2022 prognostizierte Irina Farooq, Senior Director, Product Management, Smart Analytics bei Google Cloud, dass bis 2025 90 % der Daten mithilfe von ML nutzbar sein werden.

Schauen wir uns an, warum datengetriebener Erfolg so schwierig ist, welche Rolle ML bei der Wertschöpfung aus Daten spielt und welche konkreten Ergebnisse ML bereits liefert.

Warum Daten oft keinen Mehrwert liefern

Studien zeigen, wie schwer sich Unternehmen damit tun, aus ihren Daten geschäftlichen Wert zu ziehen. Eine Accenture-Studie aus dem Jahr 2019 ergab, dass nur 32 % der Unternehmen tatsächlich greifbaren Nutzen aus ihren Daten ziehen. Eine NewVantage-Studie aus dem Jahr 2021 kam zu dem Ergebnis, dass nur 24 % der Führungskräfte ihr Unternehmen für datengetrieben halten. Unternehmen verwalten Dateninfrastrukturen, bewegen Daten und stellen sie ihren Nutzern bereit – häufig ohne klare Roadmap, wie sich das volle Potenzial dieser Informationen heben lässt.

Zu den Hürden auf dem Weg zum geschäftlichen Mehrwert von Daten zählen die Unternehmenskultur, die schiere Datenmenge, die in Organisationen einströmt, sowie Bedenken rund um Datenhoheit und Datenschutz. Angesichts dieser Hürden tun sich viele Führungskräfte schwer, realistische Datenstrategien zu entwerfen. Manche setzen auf ein zentralisiertes Programm, bei dem ein einziges Team Daten extrahiert, bereinigt und aggregiert – mit dem Ergebnis eines pauschalen Ansatzes, der an den konkreten Bedürfnissen der Endanwender vorbeigeht. Andere setzen auf separate Teams, die maßgeschneiderte Datenpipelines bauen – mit begrenztem Wiederverwendungspotenzial.

Stattdessen brauchen Unternehmen inkrementelle Datenstrategien, die schnell Wert liefern und zugleich von Anfang an auf Skalierbarkeit ausgelegt sind.

Wie Machine Learning helfen kann

Machine Learning ist ein Teilgebiet der künstlichen Intelligenz (KI), bei dem Algorithmen mit historischen Daten trainiert werden, um Muster zu erkennen und künftige Ergebnisse vorherzusagen. Genau dieser Fokus – Daten zu nutzen, um Vorhersagen, Entscheidungen oder Empfehlungen abzuleiten – macht ML für datengetriebene Organisationen so attraktiv.

ML-Algorithmen verarbeiten historische Daten (üblicherweise Trainingsdaten genannt), um daraus ein Vorhersagemodell zu erzeugen. Jeder ML-Datensatz besteht aus Variablen (Features) und Beobachtungen (Records). Prädiktive ML-Lösungen müssen die unabhängigen Variablen (Inputs) identifizieren, die den größten Einfluss auf die abhängige Variable haben – also auf das Ergebnis, das vorhergesagt werden soll.

Unüberwachte ML-Modelle gruppieren und kategorisieren Daten, um Muster zu erkennen, statt konkrete Ergebnisse vorherzusagen. So können beispielsweise Streaming-Anbieter ihren Kundinnen und Kunden über Empfehlungen und Suche Inhalte zugänglich machen, die ihnen gefallen könnten.

Wie Sie ML wirklich wirksam einsetzen

ML ist kein Zauberstab fürs Datenmanagement. Unternehmen mit Legacy-Systemen müssen diese modernisieren, damit sie effektiv mit ML-Lösungen zusammenspielen. Die relevanten Stakeholder müssen die Qualität der Rohdaten, die in den Trainingsdatensatz fließen, in jeder Phase priorisieren – von der Datenerhebung über die Aufbereitung bis zur Bewertung der Ergebnisse. Heißt: Die Führungsebene muss Machine-Learning-Lösungen aktiv als Mittel zur Erreichung definierter Geschäftsziele unterstützen.

Warum Datenqualität entscheidend ist

Machine-Learning-Algorithmen, die auf qualitativ schlechten Datensätzen trainiert wurden, liefern ungenaue Ergebnisse. Rohdaten aus realen Szenarien enthalten immer Rauschen und fehlende Werte – verursacht durch manuelle Fehler, technische Probleme, unvorhergesehene Ereignisse und andere Störungen. Algorithmen sind in der Regel jedoch nicht darauf ausgelegt, mit fehlenden Werten umzugehen, und das eigentliche Muster der Stichprobe kann durch Rauschen verzerrt werden. Eine Datenvorverarbeitung ist daher notwendig, bevor der Algorithmus die Daten verarbeiten kann. Dabei werden fehlende Werte ergänzt, Rauschen entfernt, Inkonsistenzen aufgelöst und Ausreißer eliminiert.

Ihr ML-Modell validieren

Sobald Ihr ML-Modell steht, müssen Sie seinen praktischen Nutzen bewerten. Die Wahl der richtigen Validierungsmetrik ist besonders wichtig bei unausgewogenen Datensätzen, in denen die Klassenverteilung stark verzerrt ist und die Stichprobe für die positive Klasse so klein, dass das Modell nicht ausreichend lernen kann.

Das ist ein häufiges Problem in medizinischen und genomischen ML-Projekten. Angenommen, Sie entwickeln einen Klassifikationsalgorithmus, der vorhersagt, ob jemand eine genetische Erkrankung hat. Wenn nur 1 % der Bevölkerung diese Erkrankung aufweist, könnten Sie einen Klassifikator bauen, der immer vorhersagt, dass die Person nicht erkrankt ist – Ihr Modell wäre dann zu 99 % korrekt, aber völlig nutzlos. Diese Verzerrung lässt sich mit Techniken ausgleichen, die die Mehrheitsklasse zufällig unter- und die Minderheitsklasse überrepräsentieren. Erkennen lässt sie sich mit besser geeigneten Bewertungsmetriken wie dem F1-Score statt der reinen Genauigkeit.

Den Daten vertrauen

Auf der Google Next 22 sprach Irina Farooq darüber, dass man Daten sehen und ihnen vertrauen können muss, damit ML wirksam wird. Das bedeutet: automatisierte Katalogisierungstools nutzen, um Daten von einer zentralen Stelle aus zu erfassen und zu verwalten. Außerdem müssen Sie in Echtzeit mit den Daten arbeiten können – wichtig ist daher die richtige Kombination aus proprietären und Open-Source-Tools, damit Ihre Teams über alle Datenbestände hinweg arbeiten und mittels Streaming Analytics direkt bei der Erfassung mit den Daten arbeiten können.

Beim Thema Vertrauen ist Erklärbarkeit zu einem zentralen Element von ML geworden. Sie rückt in den Fokus, was zwischen Input und Output in einem ML-Modell passiert, und legt einen neuen Schwerpunkt auf Transparenz. Explainable Artificial Intelligence (XAI) hat sich als Sammlung von Verfahren etabliert, die die Ergebnisse und Outputs von Machine-Learning-Algorithmen nachvollziehbar und vertrauenswürdig machen. Für Unternehmen, die ML verantwortungsvoll einsetzen wollen, ist das ein zentraler Faktor.

Ihre Modelle optimieren

Kurze Feedback-Schleifen sind ebenfalls entscheidend, damit Ihre ML-Initiativen messbaren Wert liefern. Die iterative Optimierung Ihrer ML-Modelle verringert die Abweichung zwischen vorhergesagtem und tatsächlichem Output und wird über eine Kostenfunktion gemessen. Damit Ihr ML-Proof-of-Concept nicht in ungenutzten Modellen versandet, sollte eine starke Korrelation zwischen der optimierten Kostenfunktion Ihres ML-Algorithmus und einer Geschäftsmetrik wie dem ROI bestehen.

Praktiken wie automatisierte Tests, Continuous Integration und Continuous Delivery (CI/CD) sowie wirksames User Testing vor dem Launch eines umfassenden ML-Projekts beschleunigen die Modelloptimierung erheblich. Wenn Unternehmen DevOps-Prinzipien auf jede Phase des ML-Systemaufbaus anwenden, arbeiten sie auf eine reife MLOps-Kultur hin, in der sowohl ML- als auch CI/CD-Pipelines automatisiert sind.

Wo ML wertvolle Daten-Insights liefert

DoiT arbeitet mit zahlreichen Kunden zusammen, die Machine Learning auf kreative Weise auf ihre Daten anwenden – mit beeindruckenden Ergebnissen. Hier eine kleine Auswahl:

Ein effizienteres Einkaufserlebnis

CB4 setzt ML ein, um das In-Store-Erlebnis für Mitarbeitende und Kunden im Einzelhandel zu vereinfachen. Mit der ML-gestützten Lösung können Mitarbeitende einfache Anpassungen vornehmen – etwa zusätzliche Einheiten eines Produkts nachbestellen oder ein anderes Produkt aus dem Lager holen, um Kunden weiterzuhelfen und zusätzliche Verkäufe zu generieren. Jede Filiale erhält basierend auf ihren individuellen Verkaufsmustern und Betriebsbedingungen eine maßgeschneiderte Empfehlungsliste mit SKUs (Stock-Keeping Units), von denen sie mehr verkaufen könnte.

CB4 setzte auf Tools von Google Cloud und arbeitete mit DoiT zusammen, um eine schlanke Datenpipeline aufzubauen, die ML-Operationen um 30 % performanter zu machen und die Kostentransparenz zu erhöhen. Das neue System sorgt zudem für eine sichere Datenspeicherung im Einklang mit der DSGVO und weiteren internationalen Datenschutzvorgaben. Auf der Performance-Seite lassen sich neue Händler problemlos in die Datenlösung integrieren – mit hoher Verfügbarkeit auch bei Lastspitzen und beim Skalieren.

Skalierbares Online-Storytelling

Apester hilft Unternehmen, ihre Botschaft über interaktive Social-Erlebnisse wie Quizze und Umfragen zu vermitteln, die sich nahtlos in Websites einbinden und in großem Umfang ausspielen lassen. Mit wachsenden Nutzerzahlen stieg auch das Datenvolumen – und damit der Bedarf an einer skalierbaren Business-Intelligence-(BI-) und Data-Warehousing-Lösung.

Aufgebaut wurde diese rund um Google Cloud, mit Cloud Dataflow, Cloud Dataproc und Cloud Bigtable für Datenverarbeitung und Analytics. Dank der integrierten ML- und BI-Funktionen wurde das Data Warehouse BigQuery zur zentralen Analytics-Lösung von Apester. Die in BigQuery gehaltenen Daten und die Arbeit des Unternehmens mit Cloud-Natural-Language-Modulen bildeten die Grundlage für eine ML-Initiative, in deren Ausbau Apester nun massiv investiert. Für seine Pipeline setzt das Unternehmen auf die ML-Plattform TensorFlow und kann so auch beim Skalieren schneller auf die Bedürfnisse seiner Kunden reagieren.

Betrugserkennung in Echtzeit

Das Anti-Fraud-Unternehmen 24metrics bietet mit ClickShield eine Lösung, die Unternehmen hilft, betrügerische Nutzer in Echtzeit zu erkennen. Normalerweise dauert es Wochen, bis sich feststellen lässt, ob App-Nutzer echt sind oder Bots – 24metrics setzt in seinen Lösungen auf ML, um die Qualität der Nutzer vorherzusagen. DoiT half dem Unternehmen, die passenden ML-Tools zu identifizieren; nach einer ersten Session mit dem DoiT-Team konnte das Team von 24metrics sein erstes Modell selbst trainieren.

Mit den Ergebnissen unzufrieden, wandte sich das Team erneut an DoiT. Gemeinsam wurden die Resultate analysiert, mögliche Schwachstellen im ML-Trainingsansatz identifiziert und Alternativen aufgezeigt. Den Empfehlungen von DoiT folgend entwickelte 24metrics schnell ein gut trainiertes Modell, das DoiT anschließend kosteneffizient ausgerollt hat. Ursprünglich hatte 24metrics mehr als fünf Monate für den Aufbau des ML-Algorithmus und das Deployment des neuen Features eingeplant – mit Unterstützung von DoiT waren es nur zwei Monate, und der Prozess verlief einfacher als erwartet.

Intuitive Content-Bearbeitung im großen Maßstab

Die Apps von Lightricks wie Facetune, Videoleap und Photoleap vereinfachen die Content-Bearbeitung für professionelle Videofilmer, Grafikdesigner und Webentwickler. Da manche Online-Werbekampagnen nahezu sofortige Reports auf mehreren Terabyte Daten erfordern, verarbeiten und analysieren diese Apps riesige Mengen überwiegend mobiler Daten – häufig in Quasi-Echtzeit. Das Unternehmen nutzt Google Cloud Dataflow, um Nutzerverhaltensdaten zu verarbeiten, die anschließend in BigQuery für Analysen im großen Maßstab eingespielt werden.

DoiT begleitet dieses anspruchsvolle Machine-Learning-Programm laufend und unterstützt von der Architektur bis zur Problemlösung. Lightricks baut sein ML-Programm aus: Die Teams für Marketing, Produktoptimierung und Recommendation Engine entwickeln inzwischen alle eigene Machine-Learning-Modelle. Nachdem sie zunächst mit selbst verwaltetem ML auf der Google Cloud Compute Engine gestartet sind, migrieren sie nun schrittweise zu Managed Services auf Vertex AI von Google Cloud, um noch schneller skalieren zu können.

Wie es weitergeht

Machine Learning ist vielleicht nicht die Komplettlösung für Unternehmen, die mit ihren Daten ringen – aber es kann ein wichtiger Baustein sein. Mit der richtigen Führung, Kultur und passenden Strukturen können Unternehmen ML nutzen, um ihre Daten schnell und wirkungsvoll zu erschließen und maximalen Geschäftswert daraus zu ziehen. Ob Sie ML gerade erst als Teil Ihrer Datenstrategie evaluieren oder schon weit fortgeschritten sind: DoiT unterstützt Sie dabei, Ihre Initiativen zu beschleunigen und zu optimieren.