Resilienz mit AWS und DoiT: Einstieg in Disaster-Recovery-Strategien

In einer zunehmend digitalen Welt sind Unternehmen mehr denn je auf ihre Online-Services angewiesen. Fallen diese Services aus, kann das gravierende Folgen für das Geschäft haben. Genau hier setzt Disaster Recovery auf AWS an: Es geht darum, sich auf Ereignisse vorzubereiten, die Ihre IT-Infrastruktur und Ihre Daten beeinträchtigen, und sich schnell davon zu erholen. AWS (Amazon Web Services) bietet ein robustes und flexibles Framework für die Disaster-Recovery-Planung – damit Unternehmen Ausfallzeiten reduzieren und sich nach unerwarteten Ereignissen schneller wieder aufstellen können.

Was bedeutet "Disaster" im Kontext von Disaster Recovery?

Ein "Disaster" im Sinne der Disaster Recovery ist jedes Ereignis, das Ihren Geschäftsbetrieb erheblich beeinträchtigt. Das reicht von Naturkatastrophen wie Überschwemmungen oder Erdbeben über Cyberangriffe und Stromausfälle bis hin zu menschlichen Fehlern, die Datenverlust oder Systemausfälle verursachen. Ziel der Disaster-Recovery-Planung ist es, solche Ereignisse – so unerwartet sie auch sein mögen – zu antizipieren und Pläne bereitzuhalten, die ihre Auswirkungen auf Ihren Geschäftsbetrieb minimieren.

Das AWS Shared Responsibility Model

Ein grundlegendes Verständnis des AWS Shared Responsibility Model ist bei der Disaster-Recovery-Planung entscheidend. AWS arbeitet nach dem Shared Responsibility Model, was im Kern bedeutet: AWS und Kunde teilen sich die Verantwortung für eine sichere und compliance-konforme Umgebung.

AWS verantwortet die Sicherheit "der" Cloud – also die physische Sicherheit der Rechenzentren, die globale Infrastruktur, Hardware und Netzwerk. Kunden verantworten die Sicherheit "in" der Cloud, also die Sicherheit von Daten, Anwendungen, Betriebssystemen sowie Identity and Access Management. Kurz gesagt: AWS sorgt für ein sicheres Fundament, auf dem Kunden ihre Workloads mit einer zusätzlichen Sicherheitsebene aufbauen und betreiben.

Hochverfügbarkeit vs. Disaster Recovery im Vergleich

Hochverfügbarkeit und Disaster Recovery sind zwei zentrale Bausteine einer umfassenden IT-Strategie. Auf den ersten Blick wirken sie ähnlich, verfolgen aber unterschiedliche Ziele.

Bei Hochverfügbarkeit geht es darum, im Normalbetrieb ein akzeptables Servicelevel aufrechtzuerhalten. Systeme werden so konzipiert, dass sie auch beim Ausfall einzelner Komponenten erreichbar bleiben. Beispiel Online-Shop: In einer hochverfügbaren Konfiguration läuft die Website auch dann reibungslos weiter, wenn eine Instanz ausfällt, weil die Last auf andere verfügbare Instanzen verteilt wird.

Disaster Recovery hingegen bedeutet, Services nach einem schwerwiegenden Störereignis wiederherzustellen. Es geht darum, einen Plan zu haben, mit dem sich kritische Daten, Anwendungen und Infrastruktur nach einem Disaster zurückholen lassen. Würde derselbe Online-Shop etwa von einem schweren Cyberangriff getroffen, der zu großflächigem Datenverlust und Ausfall führt, würde der Disaster-Recovery-Plan die Wiederherstellung der Daten und der Funktionsfähigkeit der Website steuern.

Disaster Recovery vs. Business Continuity im Vergleich

Disaster Recovery und Business Continuity sind eng verwandt, setzen im Krisenmanagement aber unterschiedliche Schwerpunkte.

Disaster Recovery ist ein Teilbereich von Business Continuity. Sie konzentriert sich auf die technischen Prozesse, die nötig sind, um Systeme, Anwendungen und Daten nach einem Disaster wiederherzustellen. Im obigen Beispiel würde der Disaster-Recovery-Prozess nach dem Cyberangriff alle Schritte umfassen, um die Shopping-Website wiederherzustellen, Sicherheitslücken zu schließen und den Betrieb wieder aufzunehmen.

Business Continuity ist ein ganzheitlicher Ansatz, um den ununterbrochenen Betrieb essenzieller Geschäftsprozesse während und nach einem Disaster zu gewährleisten. Während Disaster Recovery vor allem auf IT-Systeme und Datenwiederherstellung abzielt, geht Business Continuity darüber hinaus. Im Beispiel der Shopping-Website könnte das bedeuten, die Callcenter-Kapazität zu erhöhen, um den Anstieg an Kundenanfragen abzufangen, temporäre Verkaufsprozesse einzurichten und Kunden proaktiv über die Lage und voraussichtliche Lösungszeiten zu informieren. Business Continuity umfasst alle Geschäftsbereiche, die von einem Disaster betroffen sein können – nicht nur die IT.

Disaster-Recovery-Strategien

Bei der Disaster-Recovery-Planung in AWS stehen je nach Anforderungen Ihrer Workloads mehrere Optionen zur Wahl. Hier die vier zentralen Strategien:

Backup and Restore: Einer der klassischen Disaster-Recovery-Ansätze. Dabei werden regelmäßig Backups in die Cloud gespielt, und im Disaster-Fall werden diese Backups genutzt, um verlorene Daten und Anwendungen wiederherzustellen. Die Strategie ist einfach und kostengünstig, da Sie nur für die durch die Backups belegten Speicherressourcen zahlen. Der Preis dafür ist die Wiederherstellungszeit, die je nach Umfang von Daten und Anwendungen lang ausfallen kann. Geeignet ist dieser Ansatz vor allem für unkritische Anwendungen, bei denen längere Wiederherstellungszeiten akzeptabel sind.
Pilot Light: Bei diesem Ansatz läuft eine minimale Version Ihrer Umgebung dauerhaft in der Cloud. Dieses "Pilot Light" besteht aus den Kernkomponenten, die für den Betrieb Ihres Systems unverzichtbar sind, etwa Datenbank und Application Server. Im Disaster-Fall werden um diesen Kern herum schnell weitere Ressourcen bereitgestellt, um das System vollständig wiederherzustellen. Die Wiederherstellungszeit ist kürzer als bei Backup and Restore, da nur bereits laufende Services skaliert werden müssen. Allerdings ist der Ansatz teurer, weil eine minimale Umgebung dauerhaft betrieben wird. Pilot Light eignet sich für kritische Anwendungen, bei denen kurze Wiederherstellungszeiten wichtig sind.
Warm Standby: Hier läuft dauerhaft eine herunterskalierte, voll funktionsfähige Umgebung in der Cloud. Diese sogenannte Standby-Umgebung spiegelt Ihre Produktionsumgebung und steht bereit, im Disaster-Fall zu übernehmen. Bei Bedarf lässt sie sich rasch hochskalieren, um die volle Produktionslast zu tragen. Warm Standby bietet eine kürzere Wiederherstellungszeit als Backup and Restore und Pilot Light, da das System lediglich noch hochskaliert werden muss. Im Gegenzug entstehen höhere Kosten, weil die Standby-Umgebung kontinuierlich vorgehalten wird.
Multi-Site: Hierbei laufen Ihre Anwendungen und Services parallel an mehreren Standorten, typischerweise in verschiedenen geografischen Regionen. Alle Standorte sind aktiv und teilen sich im Normalbetrieb die Last. Fällt ein Standort aus, übernehmen die anderen, sodass der Service unterbrechungsfrei weiterläuft. Der entscheidende Vorteil von Multi-Site ist die kürzeste Wiederherstellungszeit aller DR-Strategien dank des Active-Active-Charakters. Es ist allerdings auch die teuerste Strategie, da mehrere voll funktionsfähige Umgebungen unterhalten werden müssen. Eingesetzt wird sie typischerweise für geschäftskritische Anwendungen, bei denen Hochverfügbarkeit und Null-Ausfallzeit oberste Priorität haben.

Jede dieser Strategien hat ihre Vorzüge; die Auswahl richtet sich nach den spezifischen Anforderungen Ihrer Workloads. Zwei zentrale Faktoren bei dieser Entscheidung sind Ihre Recovery Point Objective (RPO) und Recovery Time Objective (RTO).

RPO bezeichnet die maximal akzeptable Menge an Datenverlust, gemessen in Zeit. Hat ein System beispielsweise eine RPO von 60 Minuten, müssen Konfigurationen und Daten so gesichert werden, dass im Fehlerfall maximal 60 Minuten an Daten verloren gehen.

RTO hingegen ist die angestrebte Zeitspanne, innerhalb derer ein Geschäftsprozess nach einem Disaster wiederhergestellt sein muss, um nicht hinnehmbare Folgen für die Geschäftskontinuität zu vermeiden. Beträgt Ihre RTO etwa 120 Minuten, müssen Ihre Systeme und Anwendungen innerhalb von 120 Minuten nach einem Ausfall wieder verfügbar sein.

Die Unterscheidung zwischen RPO und RTO ist wesentlich. Während sich RPO auf die Daten und den akzeptablen Datenverlust bezieht, fokussiert RTO die Zeit, die benötigt wird, um das System wieder verfügbar zu machen.

Im Folgenden ein Überblick zu RPO und RTO im Verhältnis zu den vier zuvor beschriebenen Disaster-Recovery-Strategien:

Backup and Restore:

RTO: Im Disaster-Fall hängt die RTO bei Backup and Restore von der Zeit ab, die für das Wiederherstellen der Backups benötigt wird. Diese variiert je nach Backup-Größe, Geschwindigkeit des Backup-Speichers und Komplexität des Wiederherstellungsprozesses. Typischerweise reicht die RTO von Stunden bis Tagen.
RPO: Die RPO ergibt sich aus dem Zeitintervall zwischen den Backups. Bei regelmäßigen Backups entspricht die RPO dem Zeitraum zwischen dem letzten erfolgreichen Backup und dem Zeitpunkt des Disasters.

2. Pilot Light:

RTO: Die Pilot-Light-Strategie minimiert Ausfallzeiten, indem eine minimale Umgebung bereits in der Cloud läuft. Die RTO kann relativ kurz sein und reicht von wenigen Minuten bis zu einigen Stunden, je nach Zeitaufwand für das Hochskalieren.
RPO: Die RPO hängt von der Häufigkeit der Datenreplikation aus der Hauptumgebung in die minimale Cloud-Umgebung ab. Sie variiert, liegt aber typischerweise im Bereich von Minuten bis Stunden.

3. Warm Standby:

RTO: Mit einer Warm-Standby-Lösung ist die RTO kürzer als bei Pilot Light, da die Systeme bereits laufen. Sie liegt typischerweise zwischen wenigen Minuten und einigen Stunden, abhängig von den notwendigen Skalierungs- und Synchronisationsprozessen.
RPO: Die RPO ergibt sich aus der Häufigkeit der Datenreplikation bzw. Synchronisation zwischen Haupt- und Standby-Umgebung in der Cloud. Wie bei Pilot Light liegt sie typischerweise im Minuten- oder Stundenbereich.

4. Multi-Site:

RTO: Multi-Site zielt auf Hochverfügbarkeit und schnelles Failover ab, indem Workloads parallel an mehreren Standorten oder in mehreren AWS-Regionen laufen. Die RTO kann sehr kurz sein – oft im Bereich von Sekunden oder Minuten –, da der Traffic im Disaster-Fall schnell auf einen alternativen Standort umgeleitet wird.
RPO: Die RPO ergibt sich aus dem Replikationsmechanismus zwischen den Standorten bzw. Regionen. Bei synchroner Replikation kann die RPO nahezu null sein, der Datenverlust also minimal. Asynchrone Replikation kann eine geringe Verzögerung verursachen und zu einer RPO im Sekunden- bis Minutenbereich führen.

Die Wahl der Disaster-Recovery-Strategie sollte sich idealerweise an Ihren Anforderungen an RPO und RTO orientieren. Sie muss die richtige Balance zwischen Kosten, Komplexität und Disaster-Recovery-Anforderungen finden. Eine Strategie, die Datenverlust (niedrige RPO) und Wiederherstellungszeit (niedrige RTO) minimiert, ist möglicherweise komplexer und teurer, kann aber für Workloads unverzichtbar sein, bei denen Datenverlust und Ausfallzeiten erhebliche Auswirkungen auf das Geschäft haben. Für unkritische Workloads kann hingegen eine einfachere, kosteneffizientere Strategie mit höheren RPO- und RTO-Werten ausreichen.

Zentrale AWS-Services für Disaster Recovery

AWS bietet eine Reihe von Services, die sich für eine effiziente und wirksame Disaster Recovery einsetzen lassen. Im Folgenden einige der wichtigsten:

AWS Elastic Disaster Recovery: Eine Lösung für die Resilienz Ihrer Infrastruktur. Sie bietet automatisierte Wiederherstellung nach unterschiedlichsten Vorfällen, etwa bei Infrastruktur- oder Anwendungsausfällen. Durch kontinuierliche Datenreplikation auf Block-Ebene erreicht der Service RPOs im Sekundenbereich. Die laufende Replikation in einen kosteneffizienten Staging-Bereich innerhalb der AWS-Umgebung minimiert zudem Ihren Ressourcenverbrauch. Per automatisierter Maschinenkonvertierung und Orchestrierung lässt sich Ihre RTO auf wenige Minuten reduzieren.

AWS Backup: AWS Backup ist ein zentraler Service, der den Backup-Prozess über verschiedene AWS-Services hinweg vereinfacht und automatisiert – darunter EBS, RDS, DynamoDB, EFS und AWS Storage Gateway. Diese Integration reduziert die operative Komplexität, sorgt für konsistente Backups und leistet damit einen wesentlichen Beitrag zu einer robusten Disaster-Recovery-Strategie. Der Service ermöglicht zudem Backup-Pläne mit Richtlinien zu Häufigkeit und Aufbewahrungsdauer, automatisiert den Backup-Prozess weiter und verringert das Risiko von Datenverlust. AWS Backup spielt eine zentrale Rolle beim Erreichen von RPO- und RTO-Zielen: Mit regelmäßigen Backups lässt sich der maximal akzeptable Datenverlust (RPO) minimieren, und über die Restore-Funktion von AWS Backup verkürzt sich die Zeit zur Wiederherstellung nach einem Datenverlust (RTO).

Amazon S3 Cross-Region Replication: Diese Funktion kopiert Objekte automatisch und asynchron zwischen Buckets in verschiedenen AWS-Regionen. Im Disaster-Recovery-Kontext sorgt Cross-Region Replication (CRR) vor allem dafür, dass Ihre Daten auch bei regionalen Ausfällen verfügbar und beständig bleiben. Erreicht wird das durch ein vollständig repliziertes Backup Ihrer Daten an einem separaten geografischen Ort, der von Disastern am Ursprungsort nicht betroffen ist.

Amazon RDS: Vereinfacht das Einrichten, Betreiben und Skalieren einer relationalen Datenbank in der Cloud. RDS bietet automatisierte Backups, Datenbank-Snapshots, Cross-Region Read Replicas und – für einige Datenbanktypen – sogar dedizierte DR-Funktionen, die für die Disaster Recovery genutzt werden können, damit Ihre Datenbank nach einem Disaster schnell wiederhergestellt werden kann.

Amazon Route 53: Ein wesentliches Merkmal von Route 53 im Disaster-Recovery-Kontext ist das Service Level Agreement (SLA) mit 100 % Verfügbarkeit. Diese Garantie stellt sicher, dass der Service stets betriebsbereit ist und ein zuverlässiges Routing zu Ihrer Anwendungsinfrastruktur bietet. Health Checks und DNS-Failover-Funktionen tragen erheblich zum DR-Nutzen von Route 53 bei. Der Service überwacht kontinuierlich den Zustand Ihrer Anwendung und ihrer Komponenten. Wird ein Ausfall oder eine Anomalie in einer bestimmten AWS-Region erkannt, leitet Route 53 den Traffic automatisch auf intakte Ressourcen in einer anderen Region um. Diese Failover-Fähigkeit auf DNS-Ebene bedeutet, dass Ihre Anwendung selbst beim Ausfall einer ganzen Region für Ihre Nutzer verfügbar bleibt. Durch schnelle Erkennung von und Reaktion auf Ausfälle leisten die Health Checks und das DNS-Failover von Route 53 einen wichtigen Beitrag zu einer robusten Disaster-Recovery-Strategie und helfen, Ausfallzeiten zu minimieren und die Hochverfügbarkeit Ihrer Anwendung zu sichern.

AWS Glacier: Ein kostengünstiger Speicherdienst für die Datenarchivierung. Für die Disaster Recovery bietet Glacier eine wirtschaftliche Lösung, um Backups selten genutzter Daten abzulegen. Im Disaster-Fall lassen sich diese Daten abrufen, allerdings mit längeren Abrufzeiten als bei Amazon S3.

AWS CloudFormation: Ermöglicht die automatisierte Bereitstellung und Verwaltung von Ressourcen in der AWS-Cloud-Umgebung. Nutzer können Infrastruktur als Code (IaC) über CloudFormation-Templates definieren und ausrollen. Im Disaster-Fall lassen sich Templates nutzen, um Ihre Infrastruktur schnell in einer anderen Region neu aufzubauen. Das beschleunigt die Wiederherstellung und sorgt für Konsistenz zwischen den Umgebungen. Wichtig: Diese Templates sollten über S3 Cross-Region Replication ebenfalls in der Disaster-Recovery-Region verfügbar sein, damit sie bei Bedarf zugänglich sind.

Durch die Kombination dieser Services in einer Disaster-Recovery-Strategie können Unternehmen sicherstellen, dass robuste, skalierbare und optimierte Mechanismen bereitstehen, um ihre kritischen Daten und Anwendungen im Disaster-Fall wiederherzustellen.

Proaktives Disaster-Recovery-Testing

Anfang der 2010er-Jahre führte Netflix im Rahmen seiner Cloud-Migration Chaos Monkey ein – ein Werkzeug für Resilienztests. Indem Chaos Monkey nach dem Zufallsprinzip Instanzen und Services beendet, simuliert es potenzielle Systemausfälle und liefert wertvolle Erkenntnisse darüber, wie Systeme bei kritischen Störungen reagieren. Daraus entstand Chaos Engineering – eine Disziplin, die darauf abzielt, Systemausfälle proaktiv zu erkennen und zu beheben, bevor es zu Service-Ausfällen kommt. Chaos Monkey und Chaos Engineering spielen in der Disaster Recovery eine wichtige Rolle, weil sie es Unternehmen ermöglichen, Systemreaktionen und Wiederherstellungsprozesse zu bewerten. Über kontrollierte Tests von Ausfallszenarien lassen sich Schwachstellen oder Lücken in Disaster-Recovery-Plänen erkennen und gezielt nachjustieren. Auch wenn der Ansatz zunächst zusätzliche Komplexität bringt, erhöht er die Vorbereitung, weil Organisationen Schwachstellen besser verstehen und robustere Systeme aufbauen können.

Ein weiteres Werkzeug, der AWS Fault Injection Simulator (FIS), verbessert die Anwendungsresilienz durch kontrollierte Fault-Injection-Experimente an AWS-Ressourcen. Indem er Störungen wie Server-Ausfälle oder API-Throttling erzeugt und die Systemreaktionen beobachtet, liefert FIS Einblicke in potenzielle Schwachstellen. Im Disaster-Recovery-Kontext hilft FIS dabei, Schwachstellen in der Systemresilienz zu identifizieren, sodass Engineers diese proaktiv adressieren können, bevor sie zu Service-Ausfällen führen. Über Fault-Injection-Experimente, die potenzielle Disaster simulieren, können Teams Wiederherstellungsverfahren unter kontrollierten Bedingungen evaluieren und verbessern. Das Ergebnis sind belastbarere Disaster-Recovery-Pläne und eine höhere Systemresilienz – und letztlich ein geringeres Risiko von Service-Unterbrechungen im echten Disaster-Fall.

Disaster Recovery mit der Expertise von DoiT optimieren

Im Bereich Disaster Recovery bietet DoiT Planung und Beratung. Unser Team aus erfahrenen Cloud-Architekten unterstützt Sie beim Aufbau eines robusten Disaster-Recovery-Plans, der genau auf Ihre Geschäftsanforderungen zugeschnitten ist. Mit unserem tiefen Verständnis von AWS-Services und -Infrastruktur beraten wir Sie zu Best Practices, Wiederherstellungsverfahren und optimalen Konfigurationen, um die Resilienz Ihrer Workloads zu stärken.

Disaster-Recovery-Planung bedeutet weit mehr als nur den Aufbau eines Backup-Systems. Sie umfasst eine fundierte Analyse Ihres Geschäftsbetriebs, das Verständnis kritischer Services und die Definition akzeptabler Recovery Points und Recovery Times. Unser Team begleitet Sie durch diesen Prozess und sorgt für eine umfassende Disaster-Recovery-Strategie, die zu Ihren Business-Continuity-Zielen passt.

Regelmäßiges Testen ist entscheidend, damit Ihr Plan im Ernstfall wie vorgesehen funktioniert und Ihr Team vorbereitet ist. Wir unterstützen Sie bei der Konzeption und helfen Ihnen, potenzielle Lücken und Verbesserungspotenziale zu erkennen. Sollten beim Auslösen der Disaster Recovery Probleme auftreten, ist DoiT zur Stelle. Uns ist klar: In solchen Situationen zählt jede Minute. Unser Team reagiert schnell und effizient, hilft Ihnen, Services wiederherzustellen, und minimiert Ausfallzeiten. Ob Troubleshooting oder technische Beratung – wir bringen Sie sicher durch die Krise. Unser Engagement endet nicht mit der Wiederherstellung. Im Anschluss helfen wir Ihnen, das Ereignis zu analysieren, die Wirksamkeit des Wiederherstellungsprozesses zu bewerten und liefern technische Empfehlungen sowie Best Practices.

Bei DoiT verstehen wir uns als Ihr Partner für Geschäftskontinuität und Resilienz. Von Planung und Tests über Recovery bis zum Lernen aus dem Vorfall – wir begleiten Sie auf jedem Schritt Ihres Disaster-Recovery-Wegs.

Fazit

Disaster Recovery ist kein optionaler Bestandteil der Geschäftsstrategie, sondern eine zentrale Komponente, die Kontinuität bei unerwarteten Ereignissen sicherstellt. Mit der Leistungsfähigkeit und Flexibilität von AWS können Unternehmen robuste Disaster-Recovery-Pläne aufbauen, die Ausfallzeiten und Datenverluste minimieren und einen schnellen Wiederanlauf des Betriebs ermöglichen, wenn ein Disaster eintritt. Eine professionelle Beratung hilft, potenzielle Schwachstellen in Ihren Systemen zu erkennen und passende AWS-Services dafür vorzuschlagen. Diese Expertise spart nicht nur Zeit und Aufwand, sondern hilft auch, typische Fallstricke zu vermeiden und einen robusteren, wirksameren Disaster-Recovery-Plan zu etablieren. Mit AWS als Disaster-Recovery-Plattform und DoiT als verlässlichem Partner gewinnen Sie die Sicherheit, dass Ihr Unternehmen Störungen standhält und seine Kontinuität wahrt. Wir setzen alles daran, Ihrem Unternehmen eine resiliente und sichere Cloud-Umgebung zu bieten – damit potenzielle Krisen zum Beleg für die Widerstandsfähigkeit Ihres Unternehmens werden.