Usa machine learning para obtener insights accionables

Las empresas que quieren sacarle más valor a sus datos deberían explorar el machine learning. Te explicamos por qué y te mostramos casos de empresas data-driven que lo aprovechan con éxito.

DoiT-Machine-Learning-Data-DoiT

Cómo el ML te ayuda a sacarle valor real de negocio a tus datos

Volverse más data-driven es una misión que lleva años motivando a las empresas. Saben que están inundadas de datos capaces de orientar decisiones de negocio que les permitan ganarle a la competencia, y por eso persiguen sin descanso estrategias para sacarle más valor a la información que acumulan, con resultados desiguales.

Un terreno tecnológico que promete muchísimo en este sentido es el machine learning (ML). De hecho, en Google Next 2022, Irina Farooq, Senior Director, Product Management, Smart Analytics en Google Cloud, anticipó que para 2025, el 90% de los datos será accionable mediante ML.

Veamos qué hace tan difícil el éxito data-driven, qué papel juega el ML para extraer valor de los datos y los resultados reales que está generando.

Por qué los datos no están aportando valor

Distintos estudios dejan en evidencia las dificultades que enfrentan las empresas al intentar exprimir sus datos para obtener valor de negocio. Tras una encuesta de Accenture de 2019 que reveló que solo el 32% de las empresas logra obtener valor tangible de sus datos, un estudio de NewVantage de 2021 encontró que apenas el 24% de los ejecutivos considera que su empresa es data-driven. Las empresas administran su infraestructura de datos, los mueven y los ponen a disposición de los usuarios, muchas veces sin un plan claro sobre cómo capturar el potencial de toda esa información.

Entre los obstáculos para aprovechar el valor de negocio de los datos están la cultura corporativa, la magnitud abrumadora de la información que llega a las organizaciones y las preocupaciones sobre la propiedad y la privacidad de los datos. Frente a estas barreras, a muchos líderes les cuesta diseñar estrategias de datos realistas. Algunos optan por un programa centralizado, en el que un único equipo extrae, depura y agrega los datos, lo que termina en un enfoque genérico que muchas veces no se alinea con las necesidades específicas de los usuarios finales. Otros recurren a equipos separados que arman pipelines de datos a medida, con poco margen para reutilizarlos.

Lo que hace falta es diseñar estrategias de datos incrementales, pensadas para entregar valor rápido pero con escalabilidad incorporada para usos futuros.

Cómo puede ayudar el machine learning

El machine learning es una rama de la inteligencia artificial (IA) que alimenta algoritmos con datos históricos para identificar patrones y predecir resultados futuros. Ese foco en usar los datos para hacer predicciones y tomar decisiones o recomendaciones es lo que lo vuelve tan atractivo para las organizaciones data-driven.

Los algoritmos de ML procesan datos históricos (lo que se conoce como datos de entrenamiento) para crear un modelo predictivo. Cada dataset de ML se compone de variables (features) y observaciones (registros). Las soluciones de ML predictivo deben identificar las variables independientes (entradas) con mayor influencia sobre la variable dependiente: el resultado que queremos predecir.

Los modelos de ML no supervisados agrupan y categorizan los datos para identificar patrones, en lugar de predecir resultados. Esto permite, por ejemplo, que las plataformas de streaming ayuden a sus usuarios a descubrir contenido que podría gustarles a través de recomendaciones y búsquedas.

Cómo aprovechar el ML de forma efectiva

El ML no es una varita mágica para gestionar datos. Las empresas con sistemas legacy tendrán que modernizarlos para que funcionen bien con las soluciones de ML. Los stakeholders relevantes deben priorizar la calidad de los datos crudos que alimentan el dataset de entrenamiento en todas las etapas del proceso, desde la adquisición y la preparación hasta la evaluación de los resultados. Esto implica que el liderazgo respalde las soluciones de machine learning como un medio para alcanzar los objetivos y las metas de negocio definidos.

La importancia de la calidad de los datos

Los algoritmos de machine learning entrenados con datasets de baja calidad producen resultados imprecisos. Los datos crudos extraídos de escenarios reales siempre están afectados por ruido y valores faltantes generados por errores manuales, problemas técnicos, eventos imprevistos y otros factores. Sin embargo, los algoritmos en general no están diseñados para manejar valores faltantes, y el ruido puede alterar el patrón real de la muestra. Por eso, hace falta preprocesar los datos antes de que el algoritmo pueda consumirlos. Este proceso completa los valores faltantes, elimina el ruido, resuelve inconsistencias y descarta valores atípicos.

Cómo validar tu modelo de ML

Una vez que armaste tu modelo de ML, hay que evaluar qué tan útil es en el mundo real. Elegir la métrica de validación correcta es especialmente importante cuando se trata de datasets desbalanceados, donde la distribución de clases está muy sesgada y la muestra de la clase positiva es tan pequeña que el modelo no logra aprender.

Es un problema habitual en iniciativas de ML en medicina y genómica. Imagina, por ejemplo, que estás desarrollando un algoritmo de clasificación que predice si una persona tiene o no un trastorno genético. Si solo el 1% de la población tiene ese trastorno, podrías construir un clasificador que siempre prediga que la persona no tiene la enfermedad: tu modelo tendría una precisión del 99%, pero sería completamente inútil. Este desbalance se compensa con técnicas que combinan el submuestreo aleatorio de la clase mayoritaria y el sobremuestreo de la minoritaria, y se detecta con métricas de evaluación más adecuadas como F1-score en lugar de accuracy.

Confiar en los datos

En Google Next 22, Irina Farooq habló sobre la necesidad de poder ver y confiar en los datos para que el ML sea efectivo. Eso implica apoyarse en herramientas automatizadas de catalogación para descubrir y gestionar los datos desde un único lugar centralizado. También necesitas trabajar con los datos en tiempo real, así que es clave combinar de forma óptima herramientas propietarias y open source para que tus equipos puedan operar sobre todos los datos y luego aplicar streaming analytics para procesarlos a medida que se recolectan.

En materia de confianza, la explicabilidad se ha vuelto un elemento clave del ML, ya que pone el foco en lo que ocurre dentro de un modelo entre la entrada y la salida, y le da un nuevo peso a la transparencia. La inteligencia artificial explicable (XAI) se ha desarrollado como un conjunto de procesos y métodos para que los resultados que producen los algoritmos de machine learning sean comprensibles y confiables. Es un punto fundamental para las empresas que quieren llevar adelante iniciativas de ML responsables.

Optimizar tus modelos

Los ciclos de feedback cortos también son fundamentales para que tus iniciativas de ML entreguen valor real. La optimización iterativa de tus modelos de ML reduce el margen de error entre la salida predicha y la salida real, y se mide a través de una función de costo. Para evitar terminar con modelos sin uso en tu prueba de concepto de ML, debe existir una correlación fuerte entre la función de costo optimizada en tu algoritmo y una métrica de negocio como el ROI.

Prácticas como escribir tests automatizados, adoptar integración y entrega continuas (CI/CD) y aplicar pruebas de usuario efectivas antes de lanzar un esfuerzo de ML a gran escala aceleran de forma significativa la optimización de tus modelos. Al aplicar principios de DevOps en cada etapa de la construcción del sistema de ML, las organizaciones pueden avanzar hacia una cultura madura de MLOps en la que tanto los pipelines de ML como los de CI/CD estén automatizados.

Dónde el ML está generando insights valiosos a partir de los datos

DoiT trabaja con clientes muy diversos que aplican machine learning a sus datos de formas creativas, con resultados impresionantes. Aquí van solo algunos ejemplos:

Una experiencia de retail más fluida

CB4 usa ML para que la experiencia en tienda sea más sencilla, tanto para el personal como para los clientes. Con la solución impulsada por ML, el equipo de la tienda puede hacer ajustes simples, como pedir unidades adicionales de un producto o sacar otro del depósito, para atender mejor a los clientes y generar nuevas ventas. Cada tienda recibe una lista personalizada de recomendaciones sobre los SKU (stock-keeping units) que podría vender más, basada en sus patrones de venta y condiciones operativas particulares.

CB4 aprovechó las herramientas de Google Cloud y trabajó con DoiT para construir un pipeline de datos optimizado, operaciones de ML un 30% más performantes y mayor visibilidad de costos. El nuevo sistema también ayuda a la empresa a garantizar el almacenamiento seguro de los datos, en cumplimiento con el GDPR y otras regulaciones internacionales de protección de datos. En cuanto al rendimiento, puede integrar fácilmente nuevos retailers en su solución de datos y mantener alta disponibilidad incluso en picos de demanda y al escalar.

Storytelling online escalable

Apester ayuda a las empresas a transmitir su mensaje a través de experiencias sociales interactivas, como quizzes y encuestas, que se integran sin fricción con sus sitios web y se distribuyen a escala. A medida que crecía la base de usuarios y se amplificaba el volumen de datos que manejaba, la empresa necesitó adoptar una solución de business intelligence (BI) y data warehousing fácilmente escalable.

La construyó sobre Google Cloud, incorporando Cloud Dataflow, Cloud Dataproc y Cloud Bigtable para el procesamiento y la analítica de datos. Con sus capacidades nativas de ML y BI, el data warehouse BigQuery se convirtió en la principal solución analítica de Apester. Los datos almacenados en BigQuery y el trabajo de la empresa con los módulos de Cloud Natural Language sentaron las bases para una iniciativa de ML, y hoy invierte fuerte en sus capacidades de ML. Usa la plataforma Tensorflow para su pipeline, lo que le permite acelerar la respuesta a las necesidades de sus clientes incluso mientras escala.

Detección de fraude en tiempo real

La empresa de detección de fraude 24metrics ofrece una solución llamada ClickShield, que ayuda a las empresas a identificar usuarios fraudulentos en tiempo real. Normalmente lleva semanas determinar si los usuarios de una app son reales o bots, pero 24metrics usa ML en sus soluciones para predecir la calidad de los usuarios. DoiT ayudó a la empresa a identificar las herramientas de ML adecuadas y, después de una sesión inicial con el equipo de DoiT, lograron entrenar su primer modelo por sí mismos.

Como no quedaron conformes con los resultados del modelo, consultaron a DoiT, que los ayudó a analizarlos, identificar posibles problemas en su enfoque de entrenamiento y proponer alternativas. Una vez que siguieron las recomendaciones de DoiT, desarrollaron rápidamente un modelo bien entrenado, que DoiT los ayudó a desplegar de forma costo-eficiente. 24metrics había proyectado que construir el algoritmo de ML y desplegar la nueva funcionalidad les llevaría más de cinco meses, pero con el soporte de DoiT tomó apenas dos y resultó más sencillo de lo esperado.

Edición de contenido intuitiva y a escala

Las apps de Lightricks, como Facetune, Videoleap y Photoleap, simplifican la edición de contenido para videomakers profesionales, diseñadores gráficos y desarrolladores web. Como algunas campañas de publicidad online requieren generar reportes casi instantáneos sobre varios terabytes de datos, estas apps ingieren y analizan enormes volúmenes de datos mayoritariamente móviles, muchas veces casi en tiempo real. La empresa usa Google Cloud Dataflow para procesar datos de comportamiento de los usuarios, que luego se ingieren en BigQuery para analizarlos a escala.

DoiT brinda soporte continuo para este sofisticado programa de machine learning, ofreciendo orientación en todo, desde la arquitectura hasta la resolución de problemas. Lightricks está expandiendo su programa de ML, y sus equipos de marketing, optimización de producto y motor de recomendaciones ya están creando modelos de machine learning. Tras comenzar con ML autoadministrado en Google Cloud Compute Engine, están migrando gradualmente a servicios gestionados en Vertex AI de Google Cloud para escalar aún más rápido.

Qué hacer ahora

El machine learning quizás no sea la solución completa para las empresas que están peleando con sus datos, pero sí puede ser parte de ella. Con el liderazgo, la cultura y las estructuras adecuadas, las empresas pueden usar el ML para aprovechar sus datos de forma rápida y efectiva, y así extraer el máximo valor de negocio. Tanto si tu empresa está evaluando incorporar ML como parte de su solución de datos como si ya está bastante avanzada en ese camino, DoiT puede ofrecerte soporte y orientación para acelerar y optimizar tus esfuerzos.