Cloud Intelligence™

Optimiza costos de ML con Azure Machine Learning

By Joshua FoxAug 22, 20259 min read

Esta página también está disponible en English, Deutsch, Français, Italiano, 日本語 y Português.

Escalar iniciativas de Machine Learning (ML) puede salir caro. Este artículo describe los desafíos financieros más comunes en ML y propone estrategias accionables con Azure Machine Learning (AML) para optimizar tu gasto. La idea central es que las soluciones puntuales no alcanzan: la mejor manera de gestionar los costos es con un enfoque sistemático.

MLOps es costoso

El alto costo del ML: por qué tu presupuesto se resiente

Hay varias características propias del desarrollo y la implementación de ML que lo vuelven costoso.

Los modelos modernos de ML, sobre todo en deep learning, requieren conjuntos de datos masivos. Almacenar, mover y procesar esos datos suma de manera significativa a los costos.
Los algoritmos complejos en sí mismos, como las redes neuronales profundas con numerosas capas o las técnicas de reinforcement learning con alta demanda computacional, requieren un poder de procesamiento considerable.
La dependencia de hardware especializado y escaso, como las GPU para entrenamiento e inferencia, agrega un sobrecosto al compute.
El desarrollo de ML es iterativo. Reentrenar varias veces con distintos hiperparámetros, particiones de datos o datos diferentes implica que cada corrida experimental genera un gasto adicional de compute. Por ejemplo, un solo barrido de ajuste de hiperparámetros puede lanzar cientos de jobs de entrenamiento individuales.
El desarrollo de ML es un proceso complejo de varios pasos: ingesta de datos, limpieza, transformación, entrenamiento, ajuste de hiperparámetros, predicción y más. El proceso de Machine Learning Operations (MLOps) eleva el riesgo de repeticiones y operaciones innecesarias que se traducen en costos.

Algunos clientes me han preguntado: "¿Cuánto cuesta entrenar un modelo de ML?". Yo les respondo que estos factores pueden elevar los costos a cualquier nivel imaginable: una sola corrida de entrenamiento de un LLM ha llegado a costar más de 150 millones de dólares, y el entrenamiento total ha alcanzado los miles de millones. Tú no vas a pagar tanto, pero sí debes entender que no hay un techo.

AML para la optimización de costos

Aunque los puntos que veremos aquí son universales en los sistemas de MLOps, AML por sí mismo te ayuda a ahorrar dinero. La completa plataforma de ML en la nube de Microsoft está diseñada para agilizar todo el ciclo de vida de los modelos de machine learning, desde la construcción y el entrenamiento hasta el despliegue y la gestión continua. Cada uno de los servicios de AML se puede usar de forma independiente a través de interfaces REST, pero también se integran a fondo entre sí y con el ecosistema más amplio de Azure. Gracias a diseños probados que apuntan a la eficiencia, los servicios de AML te permiten implementar tu ML a un costo menor que si lo hicieras por tu cuenta, incluso pagando por los propios servicios.

Voy a dejar fuera de esta discusión los modelos preconstruidos como los Large Language Models (LLM) y los Azure Cognitive Services para Vision o Translation. Tienen menos "perillas" granulares para ajustar, lo que exige un enfoque distinto para la optimización de costos.

Factores de costo de la infraestructura

Para gestionar los costos con eficacia, es clave entender adónde va tu presupuesto. Los principales factores, aproximadamente en orden descendente, son:

Compute: suele ser el mayor gasto e incluye el cómputo (CPU, GPU) y la memoria que se consume durante el entrenamiento del modelo y al servir predicciones.
Storage: Azure Blob Storage se usa intensamente para conjuntos de datos, artefactos de modelos e imágenes de contenedor en Azure Container Registry. El nivel de almacenamiento elegido, las opciones de redundancia y el volumen total de datos influyen en los costos.
Networking: aunque los procesos centrales de entrenamiento y predicción no deberían generar costos extremos de red, los cargos pueden acumularse por egress de datos, peering de VNet, conexiones ExpressRoute y uso de NAT Gateway. Por ejemplo, transferir terabytes de imágenes desde almacenamiento on-premises hacia Azure Blob Storage para entrenar, o los intercambios frecuentes de datos entre microservicios en un workflow de MLOps, pueden generar gastos de red.
Servicios: incluye los cargos por las APIs SaaS de Azure, como Azure AI Search, Document Intelligence o Bot Service:

Principios para optimizar los costos de ML

Adoptar una mentalidad FinOps implica abrazar varios principios fundamentales.

El primero y más importante es evitar la pérdida. Las decisiones arquitectónicas, como qué servicio usar, son importantes, pero los costos evitables más significativos surgen del mal uso: por ejemplo, usar GPUs cuando las CPUs pueden hacer el entrenamiento, o almacenar grandes volúmenes de datos sin uso en niveles costosos de Blob Storage.

En segundo lugar, estandariza tu arquitectura. Esto implica usar servicios de AML, como los Compute Targets en los AML Workspaces para entrenamiento, en lugar de gestionar tus propias flotas de Azure Virtual Machines. El equipo de Azure ha construido sistemas eficientes que te ahorran dinero: por ejemplo, con el entrenamiento en AML pagas solo por el compute necesario para entrenar, en vez de pagar de forma continua por VMs (a menos que tú mismo gestiones el autoscaling). También implica adoptar workflows estándar, como un patrón de Continuous Training (CT) en el que código o datos nuevos disparan automáticamente la ejecución de un AML Pipeline. Así, la ingesta de datos, el entrenamiento, la verificación y el despliegue ocurren justo cuando se necesitan, sin corridas excesivas ni esperas tan largas que vuelvan ineficientes los procesos.

Tercero, no sobreoptimices y caigas en la "Ilusión de la eficiencia". Por ejemplo, comprimir agresivamente los datos de entrenamiento para ahorrar en storage podría, paradójicamente, aumentar los costos totales por el tiempo de CPU significativamente mayor que se invierte en descomprimir durante cada época de entrenamiento.

No olvides que el tiempo de tus Engineers es costoso; evita destinar un esfuerzo excesivo a microoptimizaciones. Aprovecha bien su tiempo priorizando arquitecturas limpias y mantenibles por sobre optimizaciones puntuales: hoy no puedes anticipar las necesidades futuras, pero cuando llegue el momento de reducir costos más adelante, vas a querer una arquitectura que haga viable invertir tiempo de trabajo en ello.

Por último, recuerda iterar tus optimizaciones, comenzando por los mayores generadores de costo. No vas a poder implementar todas las optimizaciones en un solo ciclo, así que lo mejor es atacar primero las oportunidades fáciles y después volver a revisar dónde están los costos grandes.

Saca el máximo provecho a las herramientas de Cost Analytics

No ataques el sobrecosto que primero te llame la atención. El tiempo que inviertas en arreglarlo podría aprovecharse mejor en otra cosa.

DoiT Cloud Intelligence (console.doit.com) le ofrece a los usuarios de Azure herramientas potentes para entender y gestionar el gasto en la nube. Puedes crear reportes de facturación y dashboards, definir presupuestos y alertas, recibir avisos sobre anomalías de costo y obtener recomendaciones proactivas para ahorrar. El uso constante de estas herramientas es clave para identificar tendencias, detectar valores atípicos y enfocarte en las mayores oportunidades de ahorro.

Optimización de los costos de entrenamiento

La fase de entrenamiento suele ser la más intensiva en recursos y, por lo tanto, la parte más cara del ciclo de vida de ML. Consume una cantidad sustancial de datos y poder de cómputo, y requiere numerosos ciclos iterativos.

Right-sizing de máquinas: al monitorear el uso de recursos (CPU, GPU, memoria) con Azure Monitor durante el entrenamiento, puedes tomar decisiones informadas. Si una GPU de gama alta (como una de la serie ND H100 v5) se está subutilizando de forma constante, conviene pasarse a una opción más rentable (quizá una VM de la serie NCasT4_v3).

Usa GPUs solo cuando sean necesarias. Si tu modelo no se acelera con GPU, optar por VMs optimizadas para CPU (como las de la serie F) resulta más económico. Cuando uses GPUs, asegúrate de que tu código esté plenamente optimizado para aprovechar sus capacidades, por ejemplo, usando tamaños de batch adecuados y pipelines eficientes de carga de datos.

Las Azure Spot Virtual Machines (Low Priority VMs) ofrecen ahorros excelentes. Para jobs de entrenamiento tolerantes a fallos (¡y tus sistemas deberían serlo!), las Spot VMs pueden generar ahorros de hasta el 90% frente a los precios pay-as-you-go. Son adecuadas, por ejemplo, para tareas de ajuste de hiperparámetros con muchas pruebas independientes, donde la interrupción de una sola prueba no compromete todo el proceso.

Entornos de desarrollo

Para la fase de desarrollo, los Jupyter Notebooks o Visual Studio Code dentro de un workspace de AML ofrecen estaciones de trabajo gestionadas en la nube. Solo pagas por el tiempo en que están activos gracias a las políticas de auto-shutdown, a diferencia de una laptop potente que amortizas las 24 horas, todos los días, o de una VM que está siempre encendida a menos que recuerdes apagarla. Para ahorrar más, delega el trabajo pesado: tener recursos potentes en tu entorno de desarrollo significa que estás pagando por un set fijo de recursos durante toda la jornada laboral. Por ejemplo, en lugar de correr el entrenamiento en tu notebook, envía los jobs extensos y de larga duración como AML training jobs que se ejecutarán en Compute Clusters autoscalados y eficientes en costos.

Almacenamiento de datos

Para MLOps en Azure, Azure Blob Storage es el estándar para el almacenamiento de objetos. He visto proyectos que arrancan con un simple disco local y migran a Managed Disks, o que parten de una red local y migran a Azure Files, pero estas opciones son costosas: Blob Storage es el estándar para ML y mucho más económico. Es esencial seleccionar los access tiers correctos (Hot, Cool, Archive) según la frecuencia de acceso. Implementar políticas de gestión del ciclo de vida puede automatizar las transiciones del proceso. Implementar políticas de lifecycle management puede automatizar las transiciones. Por ejemplo, si entrenas solo con datos nuevos, archiva o elimina automáticamente los datos antiguos al cabo de un mes.

Predicción

Después de entrenar tus modelos, los despliegas para servir predicciones (inferencia). Los AML Endpoints ahorran dinero al autoescalar en función de métricas integradas. Al igual que con el entrenamiento, elegir la instancia más pequeña que sea efectiva también te ahorra dinero. El co-hosting de modelos, o despliegue multi-modelo, le permite a varios modelos pequeños compartir el mismo despliegue de endpoint, reduciendo la sobrecarga por modelo si suelen invocarse de forma secuencial o desde la misma aplicación. Sin embargo, si un endpoint queda sin uso, el autoscaling no lo bajará a cero recursos, así que apágalo tú mismo. Si tienes una app de inferencia con muy bajo tráfico, encárgate de escalar los endpoints a cero o, en su defecto, despliégala en Azure Container Apps o Azure Functions.

Para casos de uso que no son en tiempo real, los Batch Endpoints son significativamente más baratos que la predicción online y ofrecen mejor throughput, aunque también mayor latencia. Optimizar el tamaño del batch y la configuración del cluster de cómputo subyacente te brinda los mejores ahorros.

Monitoreo: ojo en los costos y el rendimiento

Los servicios de AML cuentan con monitoreo integrado, otra ventaja sobre el do-it-yourself. El monitoreo reduce los costos al asegurar que aproveches al máximo los recursos en la producción de modelos de alta calidad.

Existen dos tipos de monitoreo: el Monitoreo de Infraestructura, principalmente a través de Azure Monitor, que rastrea la utilización de recursos (CPU, GPU, memoria), así como la duración de los jobs de entrenamiento, la latencia de las predicciones y los QPS.

En cambio, el Monitoreo de Modelos rastrea métricas específicas del modelo, como el F1-score. Después del despliegue, este monitoreo te ayuda a detectar data drift, sesgo en features y sesgo en las predicciones, para que puedas decidir cuándo conviene invertir en reentrenamiento. Por ejemplo, un modelo de detección de fraude podría sufrir drift y necesitar reentrenamiento justo cuando los montos de las transacciones cambian gradualmente o evoluciona el tipo de fraude, pero no en otros casos.

Atando todos los cabos: AML Pipelines

Los AML Pipelines reducen los costos de ML al encadenar pasos de manera eficiente y controlan los costos de ingeniería al automatizar tareas repetitivas. Se evitan pasos de ejecución innecesarios o acumulaciones de datos gracias a una orquestación robusta para definir y gestionar workflows complejos de ML. Entre sus capacidades están la paralelización (procesamiento fan-out/fan-in, útil para el ajuste de hiperparámetros), la ejecución condicional (correr pasos solo si se cumplen ciertas condiciones, como desplegar un modelo solo si su precisión supera un umbral definido) y el caché o la reutilización de componentes (si las entradas y el código de un paso del pipeline no cambiaron, se reutiliza su salida en caché y se ahorra compute).

Toma acción hoy

Optimizar los costos de ML es un esfuerzo continuo que combina decisiones tecnológicas inteligentes con un proceso FinOps sólido. Al aprovechar todas las capacidades de AML, apegarte a principios arquitectónicos sólidos y mantener una vigilancia continua sobre tu gasto, te aseguras de que tus iniciativas de ML entreguen el máximo valor de negocio sin comprometer tu presupuesto. Empieza por identificar tus mayores generadores de costo y comprométete a implementar una o dos de las estrategias que vimos en el próximo trimestre. Tus resultados financieros te lo van a agradecer.