Big-Data-Architektur auf AWS richtig aufbauen

Big Data steckt voller wertvoller Geschäftsinformationen – diese gewinnbringend nutzbar zu machen, ist jedoch eine enorme Herausforderung. Wir zeigen Ihnen, wie Sie Ihre Big-Data-Architektur auf Amazon Web Services (AWS) wirkungsvoll aufbauen.

big-data

Die zentralen Weichenstellungen beim Aufbau von AWS-Umgebungen für Big Data

In den riesigen Datenströmen, die in Ihr Unternehmen fließen, verbergen sich die Schlüssel zum Geschäftserfolg. Big Data steckt voller wertvoller Informationen, die Ihrem Unternehmen einen Wettbewerbsvorteil verschaffen können – diese Schätze zu heben, ist jedoch eine enorme Herausforderung. Die Public Cloud liefert die nötige Rechenleistung, um Big Data effektiv zu erfassen, zu speichern und zu analysieren. Wir zeigen Ihnen, wie Sie Ihre Big-Data-Architektur auf Amazon Web Services (AWS) optimal aufstellen.

Welche Big-Data-Herausforderungen die Public Cloud löst

Lange Zeit konnten sich nur Unternehmen mit den Mitteln für nahezu unbegrenzte Rechenleistung den Einsatz von Big Data leisten. Mit dem Aufkommen von Cloud Computing und der Verfügbarkeit von Rechenressourcen und Services on demand hat sich das grundlegend geändert. Anwender können praktisch unbegrenzte Ressourcen einbinden, sie nur so lange nutzen, wie sie sie brauchen, und zahlen ausschließlich für die tatsächlich genutzten Ressourcen und Services.

Mit der Weiterentwicklung der Cloud haben Kunden zunehmend mehr Spielraum gewonnen, um sich auf Anwendungscode und Analyseabfragen zu konzentrieren, statt sich um Kapazitäten kümmern zu müssen. In den frühen Cloud-Jahren starteten Kunden Instanzen auf virtuellen Maschinen und installierten dort Anwendungen, die ihren Code ausführten. Anschließend begannen Cloud-Anbieter, Managed Services bereitzustellen und immer größere Teile des Software-Stacks zu übernehmen. Heute spart Serverless Computing Entwicklern die Zeit, die sie sonst für die Bereitstellung von Servern aufwenden müssten, sodass sie sich auf Aufgaben mit höherem Geschäftswert konzentrieren können.

Da sich die Cloud-Technologie kontinuierlich weiterentwickelt, können Unternehmen nahezu jeder Größe – sofern sie sie richtig einsetzen – die Möglichkeiten von Big-Data-Technologien für sich erschließen.

Die zentralen Schichten Ihrer Big-Data-Architektur

Volumen, Vielfalt und Geschwindigkeit der Daten, mit denen Sie arbeiten, erfordern eine robuste, flexible Architektur, die diese Daten häufig in Echtzeit oder nahezu in Echtzeit erfassen, speichern und verarbeiten kann. Unternehmen müssen ihren Technologie-Stack weiterentwickeln, um Volumen und Vielfalt der verfügbaren Daten bewältigen zu können – und sie brauchen eine Infrastruktur, die diese Arbeit mit höchster Geschwindigkeit erledigt, oft in Echtzeit oder nahezu in Echtzeit.

Um das gesamte Aufgabenspektrum eines effektiven Big-Data-Programms abzudecken, brauchen Sie eine mehrschichtige Architektur für Datenspeicherung, -verarbeitung und -nutzung. Sie muss multidirektionale Datenflüsse ermöglichen, da Daten sowohl vor als auch nach der Analyse gespeichert werden können.

Speicherschicht

In dieser Schicht werden die Daten gespeichert und in ein Format überführt, das Katalogisierung und Analyse ermöglicht. Compliance-Vorgaben und Governance-Richtlinien bestimmen, wie bestimmte Datentypen abgelegt werden müssen. Die Art der Speicherung sollte jedoch nicht die Art der Verarbeitung diktieren – und umgekehrt.

Datenzugriff und Governance

Angesichts der enormen Datenmengen, die in Ihre Speicherschicht fließen, sowie der neuen Datenbestände und Versionen, die durch Datentransformation, -verarbeitung und -analyse entstehen, brauchen Sie einen wirksamen Data-Governance-Prozess, um den Überblick zu behalten. Eine Schlüsselkomponente der Data Governance ist der Datenkatalog: Er kombiniert Metadaten mit spezialisierten Werkzeugen für Datenmanagement und -suche, bildet die Schnittstelle für Abfragen Ihrer Datenbestände und dient als Single Source of Truth. Der AWS Glue Data Catalog fungiert als zentraler Metastore für Batch-Verarbeitungsjobs – unabhängig davon, welcher AWS-Analysedienst zum Einsatz kommt.

Daten aus Batch-Verarbeitungen werden in der Regel in einem Data Lake abgelegt, der große Mengen an Dateien in unterschiedlichen Formaten aufnehmen kann. Im Zusammenspiel mit AWS Lake Formation, einem Service zur Vereinfachung und Zentralisierung des Zugriffsmanagements, übernimmt der AWS Glue Data Catalog die Zugriffskontrolle für Amazon S3 Data Lakes – im Verbund mit den verbreitetsten AWS-Analysediensten, darunter Amazon Redshift (über Amazon Redshift Spectrum), Amazon Athena, AWS Glue ETL und Amazon EMR (für Spark-basierte Notebooks).

Object Storage

Object Storage wie Amazon S3 ist ideal für Data Lakes: Damit lassen sich Dateien aller Art speichern, ohne dass vordefinierte Schemata oder Volumenbegrenzungen nötig wären. Object Storage wird nativ von Big-Data-Frameworks wie Spark, Hive und Presto unterstützt und bietet eine Objekt-Haltbarkeit von 99,999999999 % über mehrere Availability Zones hinweg.

Sie sollten Ihren Data Lake in Landing-, Raw-, Trusted- und Curated-Zonen segmentieren, um Daten je nach Reifegrad für die Nutzung abzulegen. Daten im Data Lake werden üblicherweise ohne vorherige Schemadefinition aufgenommen und gespeichert, um den Aufwand für Ingestion und Aufbereitung vor der Auswertung zu verringern.

Stream Storage

Echtzeit-Datenströme oder Events lassen sich mit einem Stream-Storage-Produkt wie Amazon Kinesis speichern. Mit Amazon Kinesis Data Streams können Konsumenten für Echtzeit-Analysen direkt aus dem Stream lesen. Wer die Daten dagegen für spätere Analysen ablegen möchte, kann Amazon Kinesis Data Firehose nutzen, um sie an ein Ziel (Data Lake, Data Warehouse oder Analysedienst) zu übergeben und die Auswertung später durchzuführen.

Mit AWS Glue Crawlern lassen sich neue Datensätze oder aus dem Stream hinzugekommene Partitionen entdecken. Sie können in einem einzigen Lauf mehrere Datenspeicher durchsuchen, Metadaten extrahieren und den AWS Glue Data Catalog mit Tabellen befüllen. Die in AWS Glue definierten Extract-, Transform- und Load-Jobs (ETL) lesen aus den im Quell-Data-Catalog definierten Tabellen und schreiben in die Ziel-Tabellen.

Analyseschicht

Je nach Kontext können Sie mit unterschiedlichen Analyseformen Geschäftswert aus Ihren Big Data ziehen – darunter Batch-, interaktive, Streaming- und Predictive-Analysen.

Batch-Analysen verarbeiten Daten in Zeitintervallen von Minuten bis Tagen, etwa für tägliche oder wöchentliche Verkaufsberichte. Amazon EMR ist eine umfassende Cloud-Big-Data-Lösung, mit der Sie Batch-Analysen über ein Datenverarbeitungs-Framework wie Apache Spark durchführen können.

Die interaktive Datenanalyse kombiniert verteilte Datenbanksysteme mit Rendering-Funktionen, um das analytische Potenzial von Business-Intelligence-(BI-)Technologien voll auszuschöpfen. Sie eignet sich für Szenarien, in denen Sie innerhalb von Sekunden Antworten benötigen – etwa bei Self-Service-Dashboards. Auch hier kommt Amazon EMR zum Einsatz, diesmal mit Spark oder der SQL-Abfrageengine Presto. Für große, strukturierte Datensätze ist Amazon Redshift eine sehr gute Wahl. Amazon Athena unterstützt unstrukturierte, semi-strukturierte und strukturierte Daten in Amazon S3.

Streaming-Analysen kommen bei Anwendungen zum Einsatz, die Daten in Echtzeit benötigen, etwa bei Betrugswarnungen. Eine Near-Realtime-Analyse-Pipeline lässt sich mit Amazon EMR und Spark Streaming oder mit Amazon Kinesis Data Analytics aufbauen.

Predictive Analytics nutzt maschinelles Lernen, um künftiges Verhalten auf Basis von Kaufhistorie, Suchverlauf, demografischen Daten, Bewertungen und weiteren Kategorien vorherzusagen. Amazon SageMaker ist hierfür eine gute Wahl: Der Service bietet eine zentrale Umgebung für sämtliche Machine-Learning-Aufgaben sowie vollständig verwaltete Infrastruktur, Tools und Workflows zum Erstellen, Trainieren und Bereitstellen Ihrer ML-Modelle.

Konsumschicht

In der Konsumschicht arbeitet Ihr Unternehmen mit den Daten – über Analyse-Engines, Datenabfragen, KI- und Machine-Learning-Anwendungen sowie Datenvisualisierung – um aus großen Datenmengen wertvolle Geschäftsinformationen zu gewinnen. Die Anwender lassen sich grob in zwei Gruppen einteilen:

Business-Anwender wollen die Daten mit Visualisierungstools wie Tableau oder einem vollständig verwalteten BI-Tool wie Amazon QuickSight greifbar machen. Alternativ können sie die Open-Source-Oberfläche Kibana einsetzen, um Daten aus Elasticsearch zu visualisieren.

Die zweite Gruppe sind Data Scientists, die einen Endpunkt für statistische Auswertungen benötigen, etwa über ein Tool wie R Studio. Sie können auch über einen JDBC-Treiber Amazon Athena oder Amazon Redshift anbinden und die Daten direkt abfragen.

Best Practices für Big-Data-Architekturen

Auch wenn jeder Anwendungsfall anders ist – einige Vorgehensweisen erhöhen die Erfolgswahrscheinlichkeit beim Aufbau Ihres Big-Data-Prozesses in der Public Cloud deutlich.

Konzentrieren Sie sich auf den geschäftlichen Mehrwert, den Sie aus Ihrem Big-Data-Programm ziehen wollen. Sobald Sie ein detailliertes Bild der Geschäftsziele haben, die Ihre Big-Data-Initiativen unterstützen sollen, können Sie auf dieser Grundlage die benötigten Technologien agil bereitstellen.
Entkoppeln Sie Systeme, damit sich neue Tools und Technologien ohne größere Brüche integrieren lassen. Statt auf große, monolithische Anwendungen zu setzen, zerlegen Sie sie in kleinere Systeme, sodass Sie an jedem Subsystem iterieren und schrittweise weiterentwickeln können.
Betrachten Sie Ihre Architektur ganzheitlich – als agiles Programm, das Ihre strategische Vision aufnimmt, aber gleichzeitig auf Templates basiert, die Skalierbarkeit ermöglichen.
Sorgen Sie für ein umfassendes, belastbares Data-Governance-Programm, um Ihre Daten zuverlässig zu schützen.
Verwenden Sie das passende Werkzeug für die jeweilige Aufgabe: Berücksichtigen Sie Datenstruktur, Latenzanforderungen, Durchsatz und Zugriffsmuster. Datenstruktur und Zugriffsmuster sind dabei am wichtigsten.
Erfinden Sie das Rad nicht neu: Nutzen Sie Managed und Serverless Services, um vom Engineering-Know-how und den Best Practices zu profitieren, die in diese Technologien geflossen sind. Managed und Serverless Services sind skalierbar, elastisch, hochverfügbar, zuverlässig und sicher – und erfordern wenig bis keinen Administrationsaufwand.
Behalten Sie die Kosten im Blick. Big Data muss nicht zwangsläufig große Kosten bedeuten.

Der Big-Data-Architekturprozess von DoiT

DoiT verfügt über tiefe Expertise und offizielle Partner-Kompetenzen für Daten und Analysen mit AWS. Wir unterstützen unsere Kunden bei Architektur- und Betriebsfragen, damit sie ihre Ziele schneller und mit weniger Risiken und Reibungsverlusten erreichen.

Wir starten den Prozess mit einer Bestandsaufnahme: Geschäftsmodell, Produkte und Services, Teamstruktur, Release-Strategie und Betrieb. Anschließend nehmen wir gezielt die Datenanforderungen, Ressourcen und Ziele in den Blick. Typische Fragen sind dabei:

Verfügen Sie bereits über eine Big-Data-Lösung?
Falls ja: Läuft sie on-premises oder bereits in der Cloud?
Was sind die wichtigsten Anwendungen und Konsumenten? BI-Reporting, ML usw.
Welche Datenquellen (Producer) gibt es? Berücksichtigen Sie Volumen, Geschwindigkeit und Datenstruktur.
Beschreiben Sie die Datenstufen vom Abruf über die Verarbeitung bis zur Darstellung.
Wie werden sensible Daten behandelt? Welche Regularien müssen Sie einhalten?
Wie sind Ihre Teams aufgestellt – sowohl auf der fachlichen als auch auf der technischen Seite?
Welche Methodik nutzen Sie für das Projektmanagement?
Wie erfahren ist Ihr technisches Team im Umgang mit AWS?
Wo liegen Ihre Pain Points?
Welche Use Cases möchten Sie abdecken?
Was sind Ihre Prioritäten und Erwartungen?

Die Antworten auf diese Fragen bestimmen den passenden Ansatz – das kann einer der folgenden sein:

Ein Migration Readiness Assessment (MRA): Dieses setzen wir für Kunden ein, die eine Migration zu AWS planen. Es umfasst einen Deep Dive auf Basis eines erweiterten Fragebogens (80 Fragen), um Fakten sowie Beobachtungen von Kunden und Interviewern zu erfassen und mögliche nächste Schritte abzuleiten. Anschließend erstellen wir einen ausführlichen Bericht und teilen ihn mit dem Kunden, um die Cloud-Reife zu bewerten und festzulegen, was für eine erfolgreiche Migration erforderlich ist. Auf dieser Grundlage definieren wir Migrationspfade, Zeitpläne, Ressourcen, Asset-Inventar/Abhängigkeiten und die genutzte technische Dokumentation. Das MRA kann zudem dazu dienen, kostenlose Credits bei AWS zu beantragen.
Ein Well-Architected Review (WAR): Dieser ist sinnvoll für Kunden, die bereits onboardet sind und eine Bewertung ihres aktuellen Status benötigen, um Maßnahmen und Prioritäten zur Korrektur entstandener Abweichungen zu identifizieren. Der WAR basiert auf einem von AWS entwickelten und in der Branche etablierten Bewertungsrahmen mit sechs Säulen: Operational Excellence, Sicherheit, Zuverlässigkeit, Performance-Effizienz, Kostenoptimierung und Nachhaltigkeit. Eine Credit-basierte Förderung von bis zu 5.000 USD steht zudem für die Behebung von Schwachstellen in

Produktionsumgebungen zur Verfügung.

Trainings: Das Customer Enablement von DoiT umfasst Kundenschulungen zu spezifischen AWS-Services. Immersion Days etwa beinhalten Deep Dives, die nicht nur konzeptionelles Wissen, sondern auch praktische Erfahrung vermitteln.
Prototyping (Proof of Concept): DoiT begleitet Kunden bei der Bewertung einer Lösung, indem wir Erfolgskriterien auf Basis von KPIs definieren und sie durch die technische Umsetzung führen. In wöchentlichen Cadence-Sessions klären wir offene Fragen, beseitigen Hindernisse und geben Hinweise zur Umsetzung von Optimierungen. Nach Abschluss des Prototypings messen wir die Ergebnisse an den KPIs, um Eignung, Lessons Learned und nächste Schritte festzuhalten.

Die nächsten Schritte

Wenn Sie den enormen geschäftlichen Mehrwert Ihrer Daten heben möchten, sprechen Sie mit DoiT über den Aufbau Ihres Big-Data-Prozesses auf AWS.