Vor Kurzem stand ein einstündiges Architektur-Review per Videocall mit einem Kunden auf meinem Kalender. Er wollte zwei Themen angehen: Verzögerungen bei Alerts und die Kosten für Cloud-Speicher. Ein wirklich spannender Kunde – und einer der coolsten KI-Anwendungsfälle, die mir je begegnet sind.

Ursprünglich wurde ich hinzugezogen, weil das Team davon ausging, dass Google Anthos eines der Probleme lösen könnte – ein Bereich, in dem ich zuletzt viel unterwegs war. Anthos mag in Zukunft hilfreich sein, doch wir kamen gemeinsam zu dem Schluss, dass es für die akuten Anforderungen nicht die richtige Lösung ist.
Diese Geschichte ist erzählenswert, weil sie aus meiner Sicht zeigt, was DoiT International von vielen anderen Cloud-Solution-Partnern unterscheidet – über unsere Cloud Management Platform und die Services ohne Zusatzkosten für Kunden hinaus. Wir empfehlen nichts, was aus unserer Sicht nicht im besten Interesse unserer Kunden ist, und unsere Teams haben die Freiheit, genau so zu entscheiden – einer der Gründe, warum unsere Kunden uns schätzen.
Über den Kunden
Die SaaS-Lösung dieses Unternehmens kommt in Fabriken weltweit zum Einsatz, um die Qualitätskontrolle zu automatisieren. Bemerkenswert finde ich: Sie haben einen Weg gefunden, Mitarbeitende zu unterstützen und in ihrer Arbeit besser zu machen, statt sie durch Roboter zu ersetzen. Genau das ist das eigentliche Versprechen von KI.
Fabriken binden ihre Kamerafeeds an, die die Fertigungslinien überwachen, und die Software analysiert das Video in Echtzeit und prüft, ob jeder Arbeitsschritt ausgeführt wird. Erkennt sie einen fehlenden Schritt, sendet sie einen Alert, damit nachgesteuert werden kann.

(kein echter Feed, nur ein zufälliges Beispiel aus einer Fabrik)
Vielleicht ist es der Geek in mir, aber ich war fasziniert, als der Kunde seinen Bildschirm teilte, einen Live-Feed öffnete und wir gemeinsam zusahen, wie die Software in einer Fabrik für Autokühler eine Aufgabenliste abhakte (Rad gegen den Uhrzeigersinn drehen, dieses Ventil zudrücken, Drucktest und so weiter). Das in Aktion zu sehen, war wirklich beeindruckend!
Das Problem mit dem Alert-Lag
Eines der Probleme war eine Verzögerung von 4 Sekunden zwischen dem Erkennen eines Vorfalls und der Benachrichtigung der Mitarbeitenden. Die Endkunden des Unternehmens forderten maximal 2 Sekunden, damit noch genug Zeit blieb, den Vorgang zu stoppen und zu korrigieren, bevor es zu spät war. Für die Lösung waren 6 Monate gesetzt.
Die Engineers des Unternehmens hatten von Google Anthos gehört – einer Plattform für die hybride Multi-Cloud-Modernisierung von Anwendungen. Anthos ermöglicht es Organisationen, Policies, Sicherheit, Konfiguration und das Management containerisierter Anwendungen über alle großen Clouds, virtualisierte On-Prem-Umgebungen und neuerdings auch Bare Metal (am Edge) hinweg zu zentralisieren und zu standardisieren. Sie waren überzeugt: Wenn die Verarbeitung näher an den Kunden rückt, ist das Lag-Problem gelöst – und außerdem war es eben das "shiny new thing".
Das Problem mit den Cloud-Speicherkosten
Sie können sich vorstellen, wie schnell sich der Speicherbedarf summiert, wenn Video-Feeds aus all diesen Fabriken weltweit teils über Jahre aufbewahrt werden. Jeder Feed produzierte rund 700 MB pro Stunde bei 720p im H.264-Format – und das nach Multiplexing und Kompression. Pro Fabrik wurden 130 Stunden pro Woche verarbeitet.
Bisher nutzte das Unternehmen Cloud-Storage-Buckets der Standard-Tier, und die Kosten stiegen kontinuierlich. Zudem wollten sie wissen, wie sie ihre Effizienz steigern können.
Die Architektur im Detail
Der Kunde teilte seinen Bildschirm samt Architekturdiagramm, während ein Kollege aus unserem Cloud-Architecture-Team und ich zuhörten.
"Live-Streams kommen rein, wir legen sie in Google Cloud Storage Buckets ab und verarbeiten sie dann. Wir haben ein eigenes Deep-Learning-Netz mit 1 GPU pro Stream gebaut, das den Beginn und das Ende bestimmter Aktionen erkennt. Die erzeugten Daten landen in Google Cloud Bigtable und werden dann von der Business-Logik interpretiert", erklärten sie. "Wir haben einen Lag von 4,5 Sekunden, davon entfallen über 3 Sekunden auf das neuronale Netz. Wir zerlegen das eingehende Video in Frames, geben sie ins neuronale Netz und kodieren das Video anschließend neu."
Moment, was? "Bitte erklären Sie, warum Sie das Video neu kodieren."
"Ach, das geht auf frühe Fehlentscheidungen zurück: Beim Eingang strippen wir die Zeitstempel raus. Nach der Inferenz müssen wir das Video neu kodieren, um den annotierten Feed zu erzeugen."
"Wie lange dauert die Neukodierung?", fragt mein Kollege.
"Etwas über 2 Sekunden", lautet die Antwort.
"Und wie lange dauert es, einen Fehler zu erkennen?"
"Etwa 1 bis 1,5 Sekunden."
Bingo!
In diesem Moment war klar: Die Verlagerung ihrer workloads an den Edge mit Anthos würde das Problem nicht lösen. Es war kein Netzwerk-, sondern ein Anwendungsproblem.
Lösungsvorschlag für den Lag
Nach der Diskussion der Architektur kristallisierten sich zwei Ansätze heraus. Erstens: noch einmal hinterfragen, warum die Zeitstempel beim Eingang überhaupt entfernt werden – und diesen Schritt möglicherweise streichen. Zweitens: das Alerting von der Neukodierung entkoppeln und den Alert sofort senden, ohne auf den Abschluss der Kodierung zu warten.
Sie waren einverstanden, ihre Engineers mit der Prüfung dieser Ansätze zu beauftragen und den Anthos-Rollout vorerst zurückzustellen. Außerdem stellte sich heraus: Es gab Kunden, die aus Compliance-Gründen ihre Feeds nicht aus der Fabrik herausgeben wollten. Für Anthos On-Prem gibt es also durchaus tragfähige Anwendungsfälle in naher Zukunft – aktuell wollten wir aber zunächst die akuten Anforderungen lösen.
Wir identifizierten zudem weitere Sparpotenziale: mehrere Streams mit einer einzigen GPU zu verarbeiten und – sobald Inferenz/Alerting von der Neukodierung getrennt sind – womöglich auf weniger leistungsstarke Maschinen zu setzen.
Lösungsvorschlag für den Speicher
Schon beim Walkthrough wurde deutlich, dass sie ausschließlich Standard-Tier-Speicher nutzten und die rabattierten Tiers für selteneren Zugriff noch nicht ausschöpften. Ein schneller Gewinn, auf den wir uns einigten: das Object Lifecycle Management von Google Cloud Storage einzusetzen, um Storage-Objekte je nach Alter oder Zugriffshäufigkeit automatisch in günstigere Tiers zu verschieben.
Der Kunde war zwar zufrieden und hatte das ohnehin schon auf der Agenda, ich wollte aber tiefer einsteigen und prüfen, ob noch mehr drin ist. Als sie das H.264-Format beschrieben, fiel mir ein aktueller Talk mit den KI-Pionieren Ian Longellow und Andrew Ng (und weiteren) ein, der unter anderem Anwendungsfälle für Generative Adversarial Networks (GANs) jenseits von "Deepfakes" beleuchtete – einer davon: bessere Videokompression.
Ich schlug vor, GANs einzusetzen, um die zu speichernde Datenmenge beim Archivieren dieser Videos weiter zu reduzieren. Sie erkannten das Potenzial und waren mit unseren Vorschlägen sehr zufrieden. Ihre Engineers nahmen umsetzbare Empfehlungen mit, und ich bin gespannt, bald nach dem Fortschritt zu sehen.
Wieder ein erfolgreiches Architektur-Review!

Dieses Beispiel zeigt, was Sie von einem Senior Cloud Architect bei DoiT International erwarten dürfen. Wir bieten den Engineering-Teams unserer Kunden eine persönliche "Stack Overflow"-Supportebene und lösen Anliegen in der Hälfte der Zeit, die übliche Cloud-Vendor-Support-Anfragen brauchen. Außerdem unterstützen wir das Onboarding von Mitarbeitenden mit Cloud-Trainings. Und – wie in diesem Fall – helfen wir bei Kostenoptimierung und Architektur-Reviews (Infrastruktur, Daten, ML/KI sowie Software-Architektur).
Wenn Sie das anspricht, schauen Sie gern auf unserer Karriereseite vorbei oder schreiben Sie mir auf Twitter oder LinkedIn. Wir suchen die Besten und Klügsten, entsprechend anspruchsvoll ist unser Auswahlprozess – sind Sie aber einmal "drin", werden Sie schnell merken, dass DoiT International einzigartig ist (irgendwo zwischen Produkt- und Pro-Serv-Unternehmen). Ich freue mich darauf, bald mit Ihnen zusammenzuarbeiten – ob als Kunde oder Kollege.