ARM Wrestling: benchmark de las CPUs ARM en la nube

Los chips ARM han sido la opción preferida para teléfonos móviles y dispositivos pequeños desde la aparición del Apple Newton en 1993, y hoy están detrás de la mayoría de los smartphones que usamos. Hace poco, estos chips dieron el salto a un nuevo terreno: el cloud computing. AWS Graviton, lanzado por Amazon en 2018, fue el primer procesador ARM diseñado por una gran empresa de la nube.

El modelo foundry, un esquema de negocio que ha funcionado muy bien para diseñar y fabricar circuitos integrados, se adaptó para crear CPUs ARM destinadas a servidores en la nube. Así suele implementarse:

ARM Holdings diseña SIP Cores basados en arquitectura RISC y los licencia a otras empresas.
Los hyperscalers (Amazon, Google y Azure), que además son fabricantes de semiconductores fabless, implementan esos SIP cores, suman personalizaciones propias y producen tape-outs de las CPUs.
Esos tape-outs se envían después a una foundry pure-play de semiconductores para la fabricación física del dispositivo.

La serie Neoverse de ARM es una familia de CPUs pensada específicamente para cloud computing, HPC y workloads de IA.

En este post vamos a hacer un benchmark de dos implementaciones de la arquitectura Neoverse V2: AWS Graviton 4 y Google Axion. Dejamos fuera de la comparación al Azure Cobalt 100, ya que utiliza una variante un poco distinta de la arquitectura: Neoverse N.

El conjunto de pruebas

Las aplicaciones web están entre los workloads que más se despliegan en la nube. Para evaluar el desempeño de las CPUs Graviton 4 y Axion en este tipo de workloads, nos apoyamos en los TechEmpower Framework Benchmarks (TFB), que incluyen pruebas para varios lenguajes y frameworks. Por simplicidad, usaremos el conocido framework reactivo basado en JVM, Vert.x.

Las pruebas TFB miden el desempeño de los frameworks web en aspectos como enrutamiento de solicitudes, manejo de JSON, throughput e interacciones con bases de datos (mapeo ORM, caching y connection pooling). TFB requiere tres máquinas virtuales para correr estas pruebas: un servidor de aplicaciones donde se despliega el framework web, un servidor de base de datos y un generador de carga.

Configuración de la infraestructura

En AWS usamos 3 VMs R8g.xlarge (4 vCPU, 32 GiB de memoria) con 20 GB (gp3 SSD). Todas se desplegaron en una misma AZ para reducir al mínimo la latencia de red entre AZs.

En GCP hicimos lo mismo con C4A-highmem-4 (4 vCPU, 32 GiB de memoria) y 20 GB de SSD. Todas las VMs se desplegaron en una sola AZ.

Resultados del benchmark

TFB usa una herramienta muy potente llamada wrk para simular cargas reales sobre los servidores de aplicaciones. Así funciona:

wrk genera distintos niveles de solicitudes concurrentes, imitando diferentes intensidades de tráfico de usuarios.
El benchmark registra la cantidad de filas devueltas en cada escenario de prueba.
A mayor cantidad de filas, mejor desempeño de la CPU, lo que demuestra la capacidad del procesador para manejar más datos bajo presión.

Estos son los resultados para cada uno de los casos de prueba (mayor es mejor):

Un número más alto indica mejor desempeño y demuestra la capacidad del procesador para manejar más datos bajo presión (mayor es mejor).

El siguiente gráfico muestra estos números en un diagrama de barras y resalta la diferencia porcentual de desempeño entre Graviton 4 y Axion.

El gráfico resalta la diferencia porcentual de desempeño entre Graviton 4 y Axion (mayor es mejor).

Conclusión

Los resultados dejan claro que Axion, el último chip ARM de GCP, supera a AWS Graviton en 5 de los 7 casos de prueba. La ventaja de Axion va desde un 9,85 % hasta un impresionante 47,79 % de mejora frente a Graviton 4. Solo en dos casos (plaintext y multiple queries) Graviton se queda con la victoria, superando a Axion por 2,57 % y 3,69 %. Hace falta investigar más para determinar cuál es el chip ideal según los requisitos específicos de cada aplicación y las consideraciones de costo.

Escríbenos a DoiT. Contamos exclusivamente con talento senior de ingeniería y nos especializamos en consultoría avanzada en la nube, diseño arquitectónico, asesoría en debugging y servicios de consultoría.

ARM Wrestling: benchmark de las últimas CPUs ARM en la nube

Introducción

El conjunto de pruebas

Configuración de la infraestructura

Resultados del benchmark

Conclusión