Cloud Intelligence™Cloud Intelligence™

Cloud Intelligence™

7 señales poco obvias en tu factura de la nube (y qué hacer al respecto)

By Matan BordoNov 28, 20237 min read

Esta página también está disponible en English, Deutsch, Français, Italiano, 日本語 y Português.

Te compartimos 7 señales sutiles en tu factura de la nube que pueden delatar un antipatrón o sobregasto, y qué hacer en cada caso.

7 cloud bill red flags featured

Cuando hablamos de optimizar costos en la nube, a veces hay que leer entre líneas la factura.

Solemos fijarnos en los picos de costos visibles, pero ¿qué pasa con las señales más sutiles y menos evidentes que se esconden detrás de esas cifras?

En un episodio reciente del podcast Cloud Masters, reunimos a tres Technical Account Managers (TAMs) de DoiT para destapar siete señales poco obvias en facturas de la nube que han detectado entre sus clientes, y conversamos sobre qué deberías estar haciendo en su lugar.

No se trata de los típicos picos de costos que saltan a la vista, sino de pistas más sutiles de que algo podría no andar del todo bien y que pueden estar apuntando a un sobregasto o a prácticas poco eficientes.

Mira el episodio completo abajo, o sigue leyendo mientras desmenuzamos cada señal y te damos consejos prácticos para abordarla.

Señal #1: Estás pagando por AWS CloudTrail

Si te encuentras pagando por CloudTrail aunque sea un poco, tienes una oportunidad de ahorrar en tu factura de la nube. El primer trail de CloudTrail en una región es gratuito, y tu único trail debería estar a nivel de AWS Organization, ya que los trails de Organization se crean automáticamente en todas las cuentas miembro de la Organization.

Ten en cuenta que el nuevo trail se crea además de cualquier trail existente en las cuentas miembro. Por eso, si en el pasado creaste trails separados en cuentas miembro, tienes la oportunidad de ahorrar eliminándolos.

Crear tu trail de CloudTrail a nivel de Organization te ayudará a aplicar y hacer cumplir de forma uniforme tu estrategia de logging de eventos en todas las cuentas de tu organización, ya que la configuración del trail de Organization se propaga a todas las cuentas. Por eso conviene verificar que la configuración de tu trail de Organization coincida con la que quieres tener en todas las cuentas que la integran.

Señal #2: Los costos de almacenamiento suben de forma constante por falta de políticas de ciclo de vida de datos

Si ves que tus costos de almacenamiento en la nube suben de forma constante con el tiempo, podría ser una señal de que no tienes aplicadas las políticas de ciclo de vida de objetos adecuadas.

Estas políticas automatizan el proceso de mover datos entre distintas clases de almacenamiento o de eliminarlos según reglas predefinidas, alineando el costo con el valor y la accesibilidad de los datos. Así te aseguras de no estar pagando de más por almacenar datos que no requieren acceso inmediato o que ya quedaron obsoletos.

Sin políticas de ciclo de vida, terminarás con una acumulación de datos, un almacén de logs en constante crecimiento y/o snapshots de sobra. Como consecuencia, tus costos de almacenamiento tenderán al alza, sobre todo si los datos más antiguos o de acceso menos frecuente permanecen en niveles de almacenamiento de alto costo.

La mayoría de las veces, basta con mover o expirar objetos después de 30 a 90 días. Pero la señal clara de que vale la pena examinar el almacenamiento más de cerca es ver que los costos van en aumento.

Señal #3: Los costos de la API GetMetricData de CloudWatch están altos

Servicios de terceros como New Relic y Datadog escanean tus cuentas en la nube —normalmente las métricas de CloudWatch— de forma periódica para mantener al día la información sobre tu uso.

Sin embargo, mucha gente no se da cuenta de que también pagas por las solicitudes a la API que hacen estos servicios. Estas solicitudes se reflejan en CloudWatch en el SKU de la API "GetMetricData". Si no tienes cuidado, terminarás pagando una suma considerable por CloudWatch debido a estas llamadas a la API GetMetricData provenientes del software de terceros.

Por eso, conviene prestar atención a:

  1. La frecuencia de estas llamadas a la API, y
  2. Qué métricas y datos se están escaneando

Por ejemplo, puede que tengas una cuenta de desarrollo con muchos recursos en la que estás gastando bastante en CloudWatch porque se hacen llamadas a la API cada minuto. En situaciones así, vale la pena preguntarte si esa frecuencia —y quizá esa granularidad de los datos— es realmente necesaria.

Para reducir los costos de CloudWatch derivados de estas llamadas a la API, en muchos casos basta con pedirles a los servicios de terceros que ajusten la frecuencia y las métricas que se extraen para cuentas o proyectos específicos.

Señal #4: El logging supera el 20% de tu factura de la nube

Aunque el logging es esencial para el monitoreo y la resolución de problemas, un logging excesivo puede inflar tu factura de la nube.

Igual que con el consejo sobre llamadas a la API de la señal anterior, conviene preguntarte si la frecuencia y las métricas que recopilas con tu logging realmente encajan con el caso de uso. Por ejemplo, si estás alimentando un dashboard con datos de logs, no necesariamente necesitas actualizaciones por segundo: con una actualización cada cinco minutos puede alcanzar.

Como regla general, no deberías estar gastando más del 20% de tu factura de la nube en logging. Si superas ese umbral del 20%, es señal de que conviene mirar de cerca qué compone esos costos. Pregúntales a los distintos equipos que usan tus logs para qué los utilizan, y seguro identificas dónde se puede ajustar la frecuencia o las métricas que estás recopilando.

Además, presta especial atención al logging en entornos no productivos, ya que esos no necesariamente te están generando ingresos. Lo más probable es que no necesites la misma frecuencia ni las mismas métricas que rastrearías en cuentas de producción. Si algo se rompe en entornos no productivos, basta con activar y desactivar los logs, a diferencia de producción, donde necesitarás más información sobre por qué falló algo.

Señal #5: No contrastar las decisiones

Aunque esta señal no es algo concreto que puedas detectar en tu factura o en un reporte de costo y uso, no contrastar tus decisiones tecnológicas y de diseño puede derivar en dolores de cabeza en la factura de la nube y en problemas de rendimiento más adelante.

Un ejemplo muy común es cuando un equipo compra un descuento por compromiso (por ejemplo, un Savings Plan) de forma aislada, sin considerar la estrategia más amplia de la organización ni las necesidades de otros equipos. El área de tecnología puede querer migrar a serverless en los próximos dos años y, de pronto, alguien compra un Savings Plan a 3 años, dejándolos atados al uso de VMs.

No existe una decisión "objetivamente correcta" al construir en la nube. Tomar decisiones de nube de forma aislada puede generar ineficiencias y costos mayores. Pregúntate cómo estás validando internamente con colegas y/o con otros equipos que tus decisiones sean acertadas. De forma más concreta, esto puede significar contrastar las decisiones de infraestructura en la nube con la estrategia y la visión de Engineering, o con los documentos RFC/ADR correspondientes.

Señal #6: No estás limitando regiones ni tipos de instancia con políticas organizacionales

Las políticas organizacionales (consulta la documentación en Google Cloud; AWS) te ayudan a definir cómo los usuarios de tu nube pueden acceder, utilizar y administrar los recursos en la nube de tu empresa.

Desde la óptica de la optimización de costos (y de la seguridad), resultan especialmente útiles para evitar que se levanten servicios donde no deberían.

En concreto, sin políticas organizacionales que restrinjan los tipos de instancia y las regiones, expones tu infraestructura en la nube a vulnerabilidades de seguridad y a riesgos de sobregasto. Actores maliciosos pueden aprovecharse de esta falta de control para desplegar instancias en regiones no utilizadas, evadiendo la detección y llevando a cabo sus actividades.

Limita los tipos de instancia y las regiones a las que efectivamente usas, para que nadie —de forma maliciosa o por error— pueda levantar, por ejemplo, una instancia x1 en lugar de una t4 en Sudamérica cuando todos tus recursos están en Europa.

Al implementar políticas organizacionales, proteges tu entorno de nube de forma efectiva y optimizas el uso de recursos.

Señal #7: Exceso de llamadas a la API hacia los buckets de almacenamiento

Las llamadas frecuentes e innecesarias a la API hacia los buckets de almacenamiento pueden inflar los costos de almacenamiento y afectar el rendimiento. Esta señal se manifiesta en muchas situaciones distintas.

Tu(s) aplicación(es) podría(n) estar haciendo llamadas frecuentes a la API hacia buckets de almacenamiento en la nube. Esto puede ser particularmente problemático para aplicaciones que generan un alto volumen de datos o que realizan transferencias frecuentes. O quizá se trata de un proceso programado que interactúa con tus buckets y va acumulando lentamente una cantidad significativa de llamadas a la API con el tiempo.

Más allá del costo, también vale la pena considerar que las llamadas frecuentes a la API impactan el rendimiento de tu aplicación, generando lentitud, timeouts e incluso caídas del sistema.

Sin un monitoreo adecuado, es fácil terminar gastando de más sin que se enciendan las alarmas hasta que llega la factura o se alcanza un límite de cuota del servicio.

Por eso conviene revisar y optimizar el código de tu aplicación para minimizar la cantidad de llamadas a la API necesarias en cada operación. Además, implementa mecanismos de caché para almacenar en memoria los datos a los que se accede con más frecuencia y así reducir la necesidad de llamadas repetidas a la API hacia los buckets de almacenamiento.

Hazle las preguntas correctas a tu factura de la nube

Aunque podemos darte una lista de señales para tener en cuenta, los puntos por revisar son infinitos. Por eso, a largo plazo es clave mantener la curiosidad sobre tu gasto en la nube. No aceptes sin más que tu factura sea por el monto que es. Pregúntate por qué, y vuelve a preguntar por qué.

Por ejemplo, si los costos de S3 están subiendo, pregúntate qué bucket(s) están impulsando ese aumento. Luego, qué SKUs son responsables del incremento dentro de esos buckets. Y cuando descubras que se trata de costos de transferencia de datos, pregúntate junto con tu equipo si ese aumento estaba previsto o no. Quizá los costos subieron por una buena razón, pero no lo sabrás a menos que preguntes.

Con el tiempo, esto contribuye a una cultura de optimización de costos en toda la empresa, donde cada persona es consciente de su aporte a la factura de la nube y se siente con la autonomía para actuar sobre él.

Cada una de estas señales subraya la importancia de la responsabilidad compartida y de mantener la curiosidad sobre tu factura de la nube. Recuerda: identificar estas oportunidades de optimización no debería recaer únicamente en el Head of Infrastructure o en el FinOps Lead. Es un camino que se construye en equipo.