Cómo diseñar tu proceso de big data en AWS

El big data esconde información valiosa para tu negocio, pero aprovecharla al máximo es un enorme desafío. Te guiamos para estructurar tu arquitectura de big data de forma efectiva en Amazon Web Services (AWS).

big-data

Los puntos de decisión clave al montar entornos de AWS para big data

Entre los enormes volúmenes de datos que llegan a tu organización se esconden las claves del éxito de tu negocio. El big data está repleto del tipo de información valiosa que puede darle a tu empresa una ventaja competitiva, pero lograr que revele esos secretos es todo un desafío. La nube pública ofrece la escala de cómputo necesaria para recopilar, almacenar y analizar big data de forma efectiva. Te guiamos para estructurar tu arquitectura de big data en Amazon Web Services (AWS) y obtener los mejores resultados.

Desafíos del big data que resuelve la nube pública

Históricamente, las exigencias del big data implicaban que solo las empresas con recursos para financiar una capacidad de cómputo casi ilimitada podían darse el lujo de aprovecharlo. La llegada del cloud computing y la disponibilidad de recursos y servicios bajo demanda lo cambiaron todo. Hoy se puede acceder a recursos prácticamente infinitos, usarlos solo el tiempo que se necesiten y pagar únicamente por los recursos y servicios consumidos.

A medida que la nube ha evolucionado, ha dado a los clientes mayor autonomía para enfocarse en desarrollar el código de sus aplicaciones y sus consultas analíticas, en lugar de preocuparse por la capacidad. En los primeros años de la nube, los clientes levantaban instancias en máquinas virtuales e instalaban las aplicaciones que ejecutaban su código. Después, los proveedores cloud comenzaron a ofrecer servicios gestionados, asumiendo una mayor parte del stack de software. Hoy, el cómputo serverless libera el tiempo que los desarrolladores antes dedicaban a aprovisionar servidores y les permite concentrarse en tareas de mayor valor para el negocio.

Conforme la tecnología cloud sigue avanzando, organizaciones de prácticamente cualquier tamaño que la aprovechen bien pueden acceder al poder de las tecnologías de big data.

Capas clave de tu arquitectura de big data

El volumen, la variedad y la velocidad de los datos que manejas exigen una arquitectura robusta y flexible, capaz de recopilar, almacenar y procesar esos datos —muchas veces en tiempo real o casi real—. Las empresas necesitan evolucionar su stack tecnológico para gestionar el volumen y la variedad de datos disponibles, e implementar la infraestructura capaz de hacerlo a máxima velocidad, a menudo en tiempo real o casi real.

Para cubrir todo el espectro de tareas que demanda un programa de big data efectivo, necesitarás una arquitectura multicapa que abarque el almacenamiento, el procesamiento y el consumo de datos. Esta debe permitir flujos multidireccionales, ya que los datos pueden almacenarse antes y después del análisis.

Capa de almacenamiento

En esta capa los datos se almacenan y se convierten a un formato que permite catalogarlos y analizarlos. Las regulaciones de cumplimiento y las políticas de gobierno determinarán cómo se almacenan ciertos tipos de datos. Sin embargo, la forma en que almacenas los datos no debe condicionar la forma en que los procesas, ni viceversa.

Acceso y gobierno de datos

Dados los enormes volúmenes de datos que llegan a tu capa de almacenamiento y los nuevos activos y versiones que generan la transformación, el procesamiento y la analítica, necesitas un proceso de gobierno de datos efectivo para hacerle seguimiento a todo. Un componente clave del gobierno de datos es el data catalog, que combina metadatos con herramientas especializadas de gestión y búsqueda para ofrecer una interfaz desde la que consultar tus activos de datos y servir como única fuente de verdad. El Data Catalog de AWS Glue funciona como metastore central para los trabajos de procesamiento por lotes, sin importar el servicio analítico de AWS que se use para procesarlos.

Los datos provenientes de operaciones de procesamiento por lotes suelen almacenarse en un data lake, que admite grandes volúmenes de archivos en distintos formatos. En el caso de AWS Lake Formation, un servicio para simplificar y centralizar la gestión de accesos, el AWS Glue Data Catalog provee control de acceso para los data lakes en Amazon S3 con los servicios analíticos más usados de AWS, incluyendo Amazon Redshift (vía Amazon Redshift Spectrum), Amazon Athena, AWS Glue ETL y Amazon EMR (para notebooks basados en Spark).

Almacenamiento de objetos

El almacenamiento de objetos como Amazon S3 es ideal para data lakes, ya que permite guardar todo tipo de archivos sin esquemas predefinidos ni límites de volumen. Cuenta con soporte nativo en frameworks de big data como Spark, Hive y Presto, y ofrece una durabilidad de objetos del 99,999999999% en múltiples Zonas de Disponibilidad.

Tendrás que segmentar tu data lake en zonas de aterrizaje (landing), cruda (raw), confiable (trusted) y curada (curated) para almacenar los datos según su grado de preparación para el consumo. Los datos del data lake suelen ingestarse y almacenarse sin definición previa de esquema, para reducir el tiempo de ingesta y preparación antes de poder examinarlos.

Almacenamiento de streams

Los streams o eventos de datos en tiempo real pueden almacenarse mediante un producto de stream storage como Amazon Kinesis. Con Amazon Kinesis Data Streams, los consumidores pueden leer directamente del stream para hacer analítica en tiempo real; los clientes que prefieran almacenar los datos para análisis posteriores pueden usar Amazon Kinesis Data Firehose para enviarlos a un destino (data lake, data warehouses o servicios analíticos) y analizarlos después.

Puedes usar los crawlers de AWS Glue para descubrir nuevos datasets o particiones añadidas desde el stream. Pueden recorrer múltiples data stores en una sola ejecución, extrayendo los metadatos para poblar con tablas el AWS Glue Data Catalog. Los trabajos de extracción, transformación y carga (ETL) que definas en AWS Glue leen y escriben en los data stores identificados en las tablas del Data Catalog de origen y destino.

Capa de análisis

Según el contexto, puedes generar valor de negocio a partir de tu big data con distintos tipos de analítica: por lotes, interactiva, en streaming o predictiva.

La analítica por lotes consiste en procesar datos en intervalos que van de minutos a días, para casos como reportes de ventas diarios o semanales. Amazon EMR es una solución integral de big data en la nube con la que puedes hacer analítica por lotes usando un framework de procesamiento como Apache Spark.

La analítica de datos interactiva combina sistemas de bases de datos distribuidas con capacidades de renderizado para optimizar el potencial analítico de las tecnologías de Business Intelligence (BI). Aplica a situaciones donde quieres obtener respuestas del sistema en segundos, como dashboards de autoservicio. Aquí también puedes usar Amazon EMR, esta vez con Spark o el motor de consultas SQL Presto. Para datasets grandes y estructurados, Amazon Redshift funciona muy bien. Amazon Athena sirve para datos no estructurados, semiestructurados y estructurados almacenados en Amazon S3.

La analítica de streaming se usa en aplicaciones que requieren datos en tiempo real, como las alertas de fraude. Puedes construir un pipeline analítico casi en tiempo real con Amazon EMR y Spark Streaming, o con Amazon Kinesis Data Analytics.

La analítica predictiva se apoya en machine learning para anticipar comportamientos futuros con base en el historial de compras, búsquedas, datos demográficos, calificaciones y otras categorías del usuario. Amazon Sagemaker es una buena opción para analítica predictiva, ya que ofrece un único lugar para realizar todas tus tareas de machine learning, con infraestructura, herramientas y flujos de trabajo totalmente gestionados para construir, entrenar y desplegar tus modelos.

Capa de consumo

La capa de consumo es donde tu organización trabaja con los datos usando motores analíticos, consultas, aplicaciones de IA y machine learning, y visualización de datos para extraer información valiosa de grandes volúmenes. Los usuarios suelen dividirse en dos categorías:

Los usuarios de negocio quieren darle sentido a los datos con aplicaciones de visualización como Tableau o una herramienta de BI totalmente gestionada como Amazon Quicksight. También pueden usar la interfaz open-source Kibana para visualizar datos de Elasticsearch.

La segunda categoría son los data scientists, que quieren acceder a un endpoint para análisis estadístico, con una herramienta como R Studio, por ejemplo. También pueden usar un driver JDBC para conectar Amazon Athena o Amazon Redshift y consultar los datos directamente.

Buenas prácticas para una arquitectura de big data

Aunque cada caso de uso es distinto, hay ciertas prácticas con mayores probabilidades de dar buenos resultados al diseñar tu proceso de big data en la nube pública.

Enfócate en el valor de negocio que quieres obtener de tu programa de big data. Una vez que tengas una visión detallada de los objetivos de negocio que tus iniciativas de big data deben ayudarte a alcanzar, úsala para guiar la entrega ágil de las tecnologías que necesitarás para implementarlas.
Desacopla los sistemas para que se puedan integrar nuevas herramientas y tecnologías sin grandes interrupciones. En lugar de depender de aplicaciones grandes y monolíticas, divídelas en sistemas más pequeños para iterar sobre cada subsistema y construir y evolucionar realmente con el tiempo.
Adopta una visión holística al construir tu arquitectura, abordándola como un programa ágil que se adapte a tu visión estratégica, pero incorporando templates que la hagan escalable.
Asegúrate de tener un programa de gobierno de datos integral y confiable para mantener tus datos seguros.
Usa la herramienta correcta para cada tarea: ten en cuenta la estructura de datos, los requisitos de latencia, el throughput y los patrones de acceso. De estos, la estructura de datos y los patrones de acceso son los más importantes.
No intentes reinventar la rueda: aprovecha los servicios gestionados y serverless para beneficiarte del expertise de ingeniería y de las mejores prácticas que ya están invertidos en estas tecnologías. Los servicios gestionados y serverless son escalables, elásticos, disponibles, confiables y seguros, y requieren poca o ninguna administración.
No pierdas de vista el costo. Big data no tiene por qué significar costos enormes.

El proceso de arquitectura de big data de DoiT

DoiT cuenta con un expertise profundo y competencias oficiales como partner de AWS en datos y analítica. Ayudamos a nuestros clientes a resolver dudas tanto de arquitectura como de operaciones, para que alcancen sus objetivos más rápido, con menos riesgos y menos fricción.

Comenzamos analizando el modelo de negocio del cliente, los productos y servicios que ofrece, la estructura de su equipo, su estrategia de releases y sus operaciones, antes de profundizar en sus necesidades, recursos y objetivos de datos. Estas son algunas de las preguntas que solemos hacer:

¿Ya cuentas con una solución de big data?
Si es así, ¿está on-premises o ya en la nube?
¿Cuáles son las principales aplicaciones y consumidores? Reportes de BI, ML, etc.
¿Cuáles son las fuentes de datos (productores)? Piensa en volumen, velocidad y estructura.
Describe las etapas de los datos, desde la recuperación y el procesamiento hasta la presentación.
¿Cómo se manejan los datos sensibles? ¿Qué regulaciones debes cumplir?
¿Cómo están estructurados los equipos? Tanto de negocio como técnicos.
¿Qué metodología usas para gestionar proyectos?
¿Qué tan experimentados están los miembros de tu equipo técnico en AWS?
¿Cuáles son tus puntos de dolor?
¿Qué casos de uso quieres cubrir?
¿Cuáles son tus prioridades y expectativas?

Las respuestas a estas preguntas determinarán el enfoque adecuado, que podría ser uno de los siguientes:

Migration Readiness Assessment (MRA): lo usamos con clientes que planean migrar a AWS. Implica un análisis profundo basado en un cuestionario extendido (80 preguntas) para recopilar hechos y observaciones del cliente y del entrevistador, y así definir los posibles próximos pasos. Después elaboramos un reporte completo y lo compartimos con el cliente para evaluar su madurez en la nube y lo que necesita hacer para llevar a cabo una migración exitosa. Esto ayuda a definir las rutas de migración, los plazos, los recursos, el inventario de activos/dependencias y la documentación técnica que utilizaremos. El MRA también puede usarse para solicitar créditos gratuitos de AWS.
Un Well-Architected Review (WAR): puede ser útil para clientes que ya están onboarded y necesitan evaluar su estado actual, con miras a identificar acciones y prioridades para corregir las desviaciones detectadas. WAR utiliza un framework de evaluación desarrollado por AWS y adoptado por la industria, basado en seis pilares: excelencia operativa, seguridad, fiabilidad, eficiencia del rendimiento, optimización de costos y sostenibilidad. También está disponible financiamiento basado en créditos de hasta US$5k para remediar

entornos de producción.

Capacitación: el customer enablement de DoiT incluye formación de los clientes en servicios específicos de AWS. Por ejemplo, los Immersion Days incluyen análisis profundos que entregan no solo conocimiento conceptual, sino también experiencia práctica.
Prototipado (prueba de concepto): DoiT acompaña a los clientes en la evaluación de una solución, definiendo criterios de éxito basados en KPIs y guiándolos a través de la implementación técnica, mediante sesiones con cadencia semanal para resolver dudas u obstáculos y aconsejar sobre cómo aplicar optimizaciones. Cuando termina el prototipado, medimos los resultados frente a los KPIs para determinar el ajuste, las lecciones aprendidas y los próximos pasos.

Próximos pasos

Si te interesa aprovechar tus datos por el inmenso valor de negocio que pueden entregar, conversa con DoiT sobre cómo diseñar tu proceso de big data en AWS.