Resiliencia con AWS y DoiT: Guía de Disaster Recovery

En un mundo cada vez más digital, las organizaciones dependen más que nunca de sus servicios en línea. Cuando esos servicios se interrumpen, las consecuencias para el negocio pueden ser graves. Ahí es donde entra en juego el Disaster Recovery en AWS: prepararse para los desastres que afectan tu infraestructura de TI y tus datos, y saber cómo recuperarse de ellos. AWS (Amazon Web Services) ofrece un marco sólido y flexible para planificar el Disaster Recovery, lo que permite a las empresas reducir el tiempo de inactividad y volver a operar más rápido cuando ocurre lo inesperado.

Qué se entiende por "desastre" en el ámbito del Disaster Recovery

Un "desastre", en el contexto del Disaster Recovery, es cualquier evento que afecte gravemente las operaciones del negocio. Puede ir desde desastres naturales como inundaciones o terremotos, hasta ciberataques, cortes de energía o incluso errores humanos que provoquen pérdida de datos o caídas del sistema. El objetivo de la planificación de Disaster Recovery es anticiparse a estos desastres, por inesperados que sean, y poner en marcha planes que minimicen su impacto en las operaciones del negocio.

Modelo de Responsabilidad Compartida de AWS

Comprender a fondo el Modelo de Responsabilidad Compartida de AWS es clave al planificar el Disaster Recovery. AWS opera bajo este modelo, lo que significa, en esencia, que tanto AWS como el cliente comparten responsabilidades para mantener un entorno seguro y conforme con las normativas.

AWS se encarga de la seguridad "de" la nube, lo que incluye la seguridad física de los centros de datos, la infraestructura global, el hardware y la red. Por su parte, los clientes son responsables de la seguridad "en" la nube, lo que abarca la seguridad de los datos, las aplicaciones, los sistemas operativos y la gestión de identidades y accesos. En pocas palabras, AWS provee una base segura sobre la cual los clientes pueden construir y ejecutar sus workloads con una capa adicional de seguridad.

Alta disponibilidad vs Disaster Recovery

La alta disponibilidad y el Disaster Recovery son aspectos fundamentales de cualquier estrategia integral de TI. Aunque parezcan similares, cumplen propósitos distintos.

La alta disponibilidad busca mantener un nivel de servicio aceptable durante las operaciones normales. Implica diseñar tus sistemas de modo que sigan accesibles incluso si fallan componentes individuales. Por ejemplo, piensa en un sitio web de retail. Si tiene una configuración de alta disponibilidad, aunque una instancia caiga, el sitio seguirá funcionando sin problemas porque la carga se reparte entre las demás instancias disponibles.

El Disaster Recovery, en cambio, busca restaurar los servicios después de un evento disruptivo grave. Implica contar con un plan para recuperar datos, aplicaciones e infraestructura críticos tras un desastre. Por ejemplo, si ese mismo sitio de retail sufriera un ciberataque grave que provocara pérdida masiva de datos y tiempo de inactividad, el plan de Disaster Recovery guiaría la recuperación de los datos y la restauración de la funcionalidad del sitio.

Comparación entre Disaster Recovery y Continuidad del Negocio

El Disaster Recovery y la continuidad del negocio están estrechamente relacionados, pero se enfocan en aspectos distintos de la gestión de crisis.

El Disaster Recovery es un subconjunto de la continuidad del negocio. Se centra en los procesos técnicos necesarios para recuperar sistemas, aplicaciones y datos después de un desastre. Como en el ejemplo anterior, tras el ciberataque, el proceso de Disaster Recovery comprendería los pasos para restaurar el sitio web de retail, corregir las vulnerabilidades de seguridad y volver a poner el sitio en marcha.

La continuidad del negocio es un enfoque integral que garantiza la operación ininterrumpida de las funciones esenciales del negocio durante y después de un desastre. Mientras que el Disaster Recovery se concentra principalmente en los sistemas de TI y la recuperación de datos, la continuidad del negocio va más allá. Si retomamos el ejemplo del sitio de retail, asegurar la continuidad de las operaciones podría implicar ampliar la capacidad del call center para atender el aumento de consultas de los clientes, establecer procedimientos de venta temporales y mantener informados de manera proactiva a los clientes sobre la situación y los plazos esperados de resolución. Abarca todos los aspectos del negocio que podrían verse afectados por un desastre, no solo TI.

Estrategias de Disaster Recovery

Al planificar el Disaster Recovery en AWS, hay varias opciones disponibles según las necesidades específicas de tus workloads. Estas son cuatro estrategias clave:

Backup and Restore: es uno de los enfoques tradicionales del Disaster Recovery. Consiste en realizar backups periódicos en la nube y, en caso de desastre, usarlos para restaurar los datos y las aplicaciones perdidas. Es una estrategia simple y rentable, ya que solo se paga por los recursos de almacenamiento que consumen los backups. La contraparte está en el tiempo de recuperación, que puede ser largo según el tamaño de los datos y las aplicaciones a restaurar. Es ideal para aplicaciones no críticas, donde tiempos de recuperación más prolongados resultan aceptables.
Pilot Light: en este enfoque, una versión mínima del entorno se mantiene siempre en ejecución en la nube. Este "Pilot Light" incluye los elementos esenciales para mantener el sistema en funcionamiento, como la base de datos y el servidor de aplicaciones. En caso de desastre, se aprovisionan rápidamente los recursos en torno a este núcleo para restaurar el sistema por completo. Tiene un tiempo de recuperación más corto que Backup and Restore, ya que solo requiere escalar servicios que ya están en ejecución. Sin embargo, es más costoso, porque obliga a mantener una versión mínima del entorno. La estrategia Pilot Light es adecuada para aplicaciones críticas en las que los tiempos de recuperación cortos son importantes.
Warm Standby: en este enfoque, una versión reducida de un entorno totalmente funcional se mantiene siempre en ejecución en la nube. Este entorno, conocido como standby, replica tu entorno de producción y está listo para tomar el relevo en caso de desastre. En este estado, puede escalar rápidamente para asumir la carga de producción cuando sea necesario. La estrategia Warm Standby ofrece un tiempo de recuperación más corto que las estrategias Backup and Restore y Pilot Light, ya que solo requiere escalar el sistema para soportar el workload completo. Sin embargo, conlleva mayores costos por la necesidad de mantener el entorno standby de forma continua.
Multi-Site: implica ejecutar tus aplicaciones y servicios de manera simultánea en más de un sitio, normalmente en distintas regiones geográficas. Con esta estrategia, todos los sitios están activos y comparten la carga durante la operación normal. Si un sitio falla, el otro u otros siguen funcionando, garantizando un servicio ininterrumpido. La principal ventaja de Multi-Site es que ofrece el tiempo de recuperación más corto entre todas las estrategias de DR, gracias a su naturaleza activo-activo. Sin embargo, también es la más costosa, ya que implica mantener varios entornos totalmente funcionales. Esta estrategia se utiliza típicamente para aplicaciones de misión crítica donde la alta disponibilidad y el tiempo de inactividad cero son fundamentales.

Cada una de estas estrategias tiene sus propias ventajas, y la elección depende de los requisitos específicos de tus workloads. Dos factores críticos en esta decisión son tu Recovery Point Objective (RPO) y tu Recovery Time Objective (RTO).

El RPO se refiere a la cantidad máxima aceptable de pérdida de datos medida en tiempo. Por ejemplo, si un sistema tiene un RPO de 60 minutos, significa que las configuraciones y los datos del sistema deben respaldarse de forma tal que, en caso de falla, no se pierdan más de 60 minutos de datos.

El RTO, por su parte, es la duración objetivo dentro de la cual debe restaurarse un proceso de negocio tras un desastre, para evitar consecuencias inaceptables asociadas a una interrupción de la continuidad del negocio. Por ejemplo, si tu RTO es de 120 minutos, tus sistemas y aplicaciones deberían estar operativos en un plazo máximo de 120 minutos después de un corte.

La distinción entre RPO y RTO es esencial. Mientras que el RPO se ocupa de los datos y de la cantidad aceptable de pérdida de datos, el RTO se centra en el tiempo que toma volver a poner el sistema en funcionamiento.

A continuación, un desglose de RPO vs RTO en relación con las cuatro estrategias clave de Disaster Recovery descritas anteriormente:

Backup and Restore:

RTO: en caso de desastre, el RTO de la estrategia Backup and Restore depende del tiempo que toma restaurar los backups. Esto puede variar según factores como el tamaño del backup, la velocidad del almacenamiento y la complejidad del proceso de restauración. Por lo general, el RTO de esta estrategia puede ir de horas a días.
RPO: el RPO de Backup and Restore lo determina el intervalo de tiempo entre backups. Si los backups se realizan a intervalos regulares, el RPO será la duración entre el último backup exitoso y el momento del desastre.

2. Pilot Light:

RTO: la estrategia Pilot Light busca minimizar el tiempo de inactividad manteniendo una versión mínima del entorno ya en ejecución en la nube. El RTO puede ser relativamente corto, de minutos a unas pocas horas, según el tiempo que tome escalar el entorno.
RPO: el RPO de Pilot Light depende de la frecuencia de replicación de datos desde el entorno principal hacia la versión mínima en la nube. Puede variar, pero suele ser de minutos u horas.

3. Warm Standby:

RTO: con una solución Warm Standby, el RTO es más corto que con el enfoque Pilot Light, ya que los sistemas ya están en ejecución. Suele ir de minutos a unas pocas horas, según los procesos de escalado y sincronización requeridos.
RPO: el RPO de Warm Standby lo determina la frecuencia de replicación o sincronización de datos entre el entorno principal y el entorno standby en la nube. Al igual que en Pilot Light, suele ser de minutos u horas.

4. Multi-Site:

RTO: la estrategia Multi-Site busca ofrecer alta disponibilidad y un failover rápido al ejecutar workloads de manera simultánea en múltiples sitios o regiones de AWS. El RTO puede ser muy corto, a menudo medido en segundos o minutos, ya que el tráfico se redirige rápidamente al sitio alternativo en caso de desastre.
RPO: el RPO de Multi-Site lo determina el mecanismo de replicación de datos utilizado entre los sitios o regiones. Si se usa replicación sincrónica, el RPO puede ser cercano a cero, lo que significa una pérdida mínima de datos. La replicación asincrónica puede introducir un ligero retraso, lo que da como resultado un RPO de segundos a minutos.

Lo ideal es que la elección de la estrategia de Disaster Recovery se alinee con tus necesidades de RPO y RTO. La estrategia debe encontrar el equilibrio adecuado entre costo, complejidad y tus requisitos de Disaster Recovery. Una estrategia que minimice la pérdida de datos (RPO bajo) y el tiempo de recuperación (RTO bajo) puede ser más compleja y costosa, pero puede ser esencial para workloads donde la pérdida de datos y el tiempo de inactividad tienen un impacto significativo en el negocio. Por otro lado, para workloads no críticos, una estrategia más simple y rentable, con RPO y RTO más altos, puede ser aceptable.

Servicios clave de AWS para Disaster Recovery

AWS ofrece un conjunto de servicios que se pueden aprovechar para un Disaster Recovery eficiente y eficaz. Estos son algunos de los servicios clave:

AWS Elastic Disaster Recovery: es una solución para garantizar la resiliencia de tu infraestructura. Provee recuperación automatizada ante diversos incidentes, como fallas de infraestructura o de aplicaciones. Mediante la replicación continua de datos a nivel de bloque, alcanza RPOs de apenas unos segundos. Además, aprovecha la replicación continua de datos hacia un área de staging rentable dentro del entorno de AWS, lo que reduce de manera efectiva tu consumo de recursos. A través de la conversión y orquestación automatizadas de máquinas, puede reducir tu RTO a solo unos minutos.

AWS Backup: AWS Backup es un servicio centralizado que simplifica y automatiza el proceso de backup en distintos servicios de AWS, como EBS, RDS, DynamoDB, EFS y AWS Storage Gateway. Esta integración reduce la complejidad operativa y garantiza backups consistentes, contribuyendo de forma significativa a una estrategia robusta de Disaster Recovery. El servicio también permite crear planes de backup con políticas que especifican la frecuencia y el período de retención de los backups, lo que automatiza aún más el proceso y reduce el riesgo de pérdida de datos. Este servicio juega un papel crítico para alcanzar los objetivos de RPO y RTO. Al programar backups regulares, se minimiza la cantidad máxima aceptable de pérdida de datos (RPO) y, mediante la funcionalidad de restauración de AWS Backup, se reduce el tiempo necesario para recuperarse tras un evento de pérdida de datos (RTO).

Amazon S3 Cross-Region Replication: esta función copia objetos de manera automática y asincrónica entre buckets en distintas regiones de AWS. En un escenario de Disaster Recovery, la función principal de Cross-Region Replication (CRR) es asegurar que tus datos estén disponibles y sean duraderos incluso ante fallas regionales. Esto se logra manteniendo un backup totalmente replicado de tus datos en una ubicación geográfica distinta, que no se ve afectada por los desastres ocurridos en la ubicación original.

Amazon RDS: facilita configurar, operar y escalar una base de datos relacional en la nube. RDS provee backups automatizados, snapshots de bases de datos, réplicas de lectura entre regiones y, para algunos tipos de bases de datos, incluso capacidades de DR, que pueden aprovecharse para Disaster Recovery y asegurar que tu base de datos pueda restaurarse rápidamente después de un desastre.

Amazon Route 53: una característica clave de Route 53 en un contexto de Disaster Recovery es su acuerdo de nivel de servicio (SLA) de 100% de disponibilidad. Esta garantía asegura que el servicio estará siempre operativo, ofreciendo un enrutamiento confiable hacia la infraestructura de tu aplicación. Las verificaciones de salud (health checks) y las capacidades de failover de DNS de Route 53 contribuyen significativamente a su utilidad para DR. El servicio monitorea continuamente la salud de tu aplicación y de sus componentes mediante health checks. Si se detecta una falla o anomalía en una región específica de AWS, Route 53 redirige automáticamente el tráfico a recursos saludables en otra región. Esta capacidad de failover a nivel de DNS implica que, incluso si toda una región queda fuera de servicio, tu aplicación seguirá disponible para los usuarios. Al permitir una rápida detección y respuesta ante fallas, los health checks y el failover de DNS de Route 53 contribuyen a una estrategia robusta de Disaster Recovery, ayudando a minimizar el tiempo de inactividad y a mantener una alta disponibilidad de tu aplicación.

AWS Glacier: es un servicio de almacenamiento de bajo costo para archivar datos. Para Disaster Recovery, Glacier ofrece una solución rentable para almacenar backups de datos a los que se accede con poca frecuencia. En caso de desastre, puedes recuperar estos datos, aunque con tiempos de recuperación más largos en comparación con Amazon S3.

AWS CloudFormation: permite el aprovisionamiento y la gestión automatizados de recursos en el entorno de AWS. Permite a los usuarios definir y desplegar infraestructura como código (IaC) usando plantillas de CloudFormation. En una situación de Disaster Recovery, las plantillas pueden utilizarse para recrear rápidamente tu infraestructura en otra región, acelerando los tiempos de recuperación y garantizando consistencia entre entornos. Es importante destacar que estas plantillas también deben estar disponibles en la región de Disaster Recovery mediante S3 Cross-Region Replication, asegurando que sean accesibles cuando se necesiten.

Al combinar estos servicios clave dentro de una estrategia de Disaster Recovery, las empresas pueden contar con mecanismos robustos, escalables y optimizados para recuperar sus datos y aplicaciones críticas en caso de desastre.

Pruebas proactivas de Disaster Recovery

Netflix presentó Chaos Monkey, una herramienta de pruebas de resiliencia, a comienzos de la década de 2010 como parte de sus iniciativas de migración a la nube. Al terminar instancias y servicios de manera aleatoria, Chaos Monkey simula posibles fallas del sistema y aporta información valiosa sobre cómo reaccionan los sistemas durante interrupciones críticas. Este enfoque dio origen al desarrollo del Chaos Engineering, una disciplina enfocada en identificar y corregir fallas de los sistemas de forma proactiva para evitar interrupciones del servicio. Chaos Monkey, junto con el Chaos Engineering, juega un papel fundamental en el Disaster Recovery, ya que permite a las organizaciones evaluar las reacciones del sistema y los procesos de recuperación. Mediante pruebas controladas de escenarios de falla, se pueden identificar debilidades o vacíos en los planes de Disaster Recovery y realizar los ajustes necesarios. A pesar de añadir cierta complejidad inicial, este enfoque mejora la preparación, ya que permite a las organizaciones comprender las vulnerabilidades de sus sistemas y construir sistemas más robustos.

Otra herramienta, AWS Fault Injection Simulator (FIS), mejora la resiliencia de las aplicaciones al permitir realizar experimentos controlados de inyección de fallas en recursos de AWS. Al generar interrupciones como caídas de servidor o limitación de APIs y observar cómo responde el sistema, FIS aporta información sobre vulnerabilidades potenciales. En el contexto del Disaster Recovery, FIS ayuda a identificar puntos débiles en la resiliencia del sistema y le da a los desarrolladores la autonomía para abordar estos problemas de manera proactiva, antes de que provoquen interrupciones del servicio. A través de experimentos de inyección de fallas que simulan posibles desastres, los equipos pueden evaluar y mejorar los procedimientos de recuperación bajo condiciones controladas. El resultado son planes de Disaster Recovery más sólidos y una mayor resiliencia del sistema, lo que reduce el riesgo de interrupciones del servicio en escenarios reales de desastre.

Optimiza tu Disaster Recovery con la experiencia de DoiT

Cuando se trata de Disaster Recovery, DoiT ofrece servicios de planificación y consultoría. Nuestro equipo de cloud architects con amplia experiencia puede ayudarte a crear un plan robusto de Disaster Recovery, hecho a la medida de las necesidades específicas de tu negocio. Con nuestro profundo conocimiento de los servicios y la infraestructura de AWS, podemos asesorarte sobre buenas prácticas, procedimientos de recuperación y configuraciones óptimas para mejorar la resiliencia de tus workloads.

Planificar el Disaster Recovery va más allá de configurar un sistema de backup. Implica un análisis profundo de tus operaciones de negocio, comprender los servicios críticos y definir puntos y tiempos de recuperación aceptables. Nuestro equipo puede guiarte a lo largo de este proceso, asegurando una estrategia integral de Disaster Recovery alineada con tus objetivos de continuidad del negocio.

Las pruebas regulares son cruciales para asegurar que tu plan funcione como se espera y que tu equipo esté preparado para el evento real. Podemos ayudarte en el diseño de las pruebas e identificar posibles brechas y áreas de mejora. Si en algún momento te enfrentas a problemas al activar el Disaster Recovery, DoiT está listo para ayudarte. Sabemos que en estos escenarios cada minuto cuenta. Nuestro equipo está preparado para responder de manera ágil y eficiente, ayudándote a restaurar los servicios y minimizar el tiempo de inactividad. Ya sea solucionar un problema o brindar orientación técnica, estamos comprometidos a acompañarte durante la crisis. Nuestro acompañamiento no termina con la recuperación. Después del evento, podemos ayudarte a analizarlo, comprender la efectividad del proceso de recuperación y entregar orientación técnica y buenas prácticas.

En DoiT nos vemos como tu partner en la continuidad y resiliencia del negocio. Desde la planificación y las pruebas hasta la recuperación y el aprendizaje, te acompañamos en cada paso de tu camino de Disaster Recovery.

Conclusión

El Disaster Recovery no es una parte opcional de la estrategia de negocio; es un componente crítico que asegura la continuidad ante eventos inesperados. Al aprovechar la potencia y flexibilidad de AWS, las empresas pueden construir planes robustos de Disaster Recovery que minimizan el tiempo de inactividad y la pérdida de datos, asegurando que puedan reanudar operaciones rápidamente cuando ocurra un desastre. Una consultoría profesional puede ayudar a identificar posibles vulnerabilidades en tus sistemas y sugerir los servicios de AWS adecuados para abordarlas. Esta experiencia no solo te ahorra tiempo y esfuerzo, sino que también ayuda a evitar errores comunes y a garantizar un plan de Disaster Recovery más robusto y efectivo. En definitiva, con AWS como tu plataforma de Disaster Recovery y DoiT como tu partner de confianza, ganas la certeza de que tu negocio puede resistir las disrupciones y mantener la continuidad. Nos comprometemos a darle a tu negocio un entorno de nube resiliente y seguro, ayudándote a transformar la adversidad potencial en una prueba de la resiliencia de tu empresa.