DeepSeek: el momento Sputnik de China en IA

El mundo de la IA está revolucionado con el lanzamiento de DeepSeek, un nuevo modelo de lenguaje grande (LLM) procedente de China. Tal como ocurrió con el satélite Sputnik que lanzó la Unión Soviética en 1957, DeepSeek provocó una onda expansiva en la industria: muestra una arquitectura novedosa e impresionante y abre interrogantes sobre el futuro del desarrollo de la IA. Pero más allá del ruido, ¿qué significa realmente DeepSeek para las empresas que quieren aprovechar el poder de los LLM? ¿Es un punto de inflexión o una prueba de concepto que pronto quedará atrás?

Lo que distingue a DeepSeek: una malla de expertos

DeepSeek se destaca por tres innovaciones clave:

Ejecución con Mixture of Experts (MoE): en lugar de un único modelo monolítico, DeepSeek utiliza una "malla" de agentes expertos más pequeños y especializados. Cuando se asigna una tarea, solo se activa un subconjunto relevante de esos expertos (y sus parámetros). Así, el modelo resulta mucho más eficiente en cuanto a recursos computacionales.
Datos de cold-start para reforzar el razonamiento: DeepSeek se apoya en un pequeño conjunto de ejemplos de cadena de pensamiento de alta calidad, anotados por humanos, para hacer fine-tuning del modelo antes de aplicar reinforcement learning. Esos datos de cold-start no solo mejoran la legibilidad del modelo, sino que también potencian sus capacidades de razonamiento al darle una base sólida para el entrenamiento posterior con RL. Este enfoque demuestra el potencial de combinar la experiencia humana con el reinforcement learning para desarrollar modelos de razonamiento más eficaces.
Reinforcement Learning para potenciar el razonamiento: DeepSeek aplica un proceso de reinforcement learning en varias etapas para mejorar las capacidades de razonamiento del modelo. El proceso consiste en entrenarlo con un conjunto diverso de tareas (programación, matemáticas, ciencia y lógica) usando recompensas basadas en reglas que guían el aprendizaje. El uso de RL le permite al modelo explorar y desarrollar estrategias de razonamiento eficaces de forma autónoma, lo que se traduce en mejoras notables en su desempeño frente a tareas complejas.

El elefante en la sala: la seguridad

Como con cualquier tecnología nueva, y más aún cuando proviene de un país con un panorama geopolítico complejo, la seguridad es una preocupación central. Si bien DeepSeek es open-source, lo que permite a la comunidad revisar su código en busca de sesgos, vulnerabilidades o riesgos de seguridad, su origen ya enciende algunas alertas.

Lo práctico: cuando el ruido choca con la realidad

Aunque la arquitectura de DeepSeek es revolucionaria, hoy su utilidad práctica para la mayoría de las empresas es limitada. Estas son las razones:

Alto consumo de recursos: ejecutar el modelo completo DeepSeek R1 exige una inversión considerable en GPUs costosas. Eso lo deja fuera del alcance de muchas organizaciones.
Dudas con la API: usar la API de DeepSeek es más accesible, pero implica consideraciones de privacidad. Sus términos indican que pueden usar tus datos de entrada para mejorar el modelo —algo inaceptable para muchas empresas con datos sensibles— y que cualquier dato capturado se almacena en China.
Modelo más chico, menor calidad: es posible desplegar una versión más pequeña de DeepSeek, pero el desempeño cae notoriamente respecto a R1, lo que la vuelve menos competitiva frente a los servicios gestionados existentes.

Ejecutar DeepSeek de forma segura: la ventaja de la nube

Para quienes igual quieran experimentar con DeepSeek, lo más seguro es desplegarlo en un entorno de nube controlado como AWS, GCP o Azure. Así se mantiene el control total sobre los datos y la infraestructura, y se mitigan algunos de los riesgos de seguridad asociados a los modelos open-source, sobre todo cuando su origen genera dudas. Si bien este camino resulta más costoso que recurrir a servicios gestionados como Amazon Bedrock o Gemini de Google, ofrece el mayor nivel de seguridad y control.

DeepSeek vs. la competencia: una comparación

Seamos realistas. Por más impresionante que sea, es poco probable que DeepSeek destrone pronto a jugadores consolidados como Claude de Anthropic, GPT-4 de OpenAI o Gemini de Google. Esos modelos llevan ventaja en desempeño, ecosistema y, sobre todo, en adopción empresarial.

Hicimos pruebas acotadas ejecutando los modelos DeepSeek Distilled en Amazon SageMaker y comparamos su desempeño con los modelos disponibles dentro del ecosistema de AWS. Los resultados fueron claros:

Brecha de desempeño: aunque DeepSeek mostró potencial, todavía quedó por detrás de los modelos líderes en precisión, fluidez y utilidad general en distintos escenarios de negocio.
Razonamiento con manías: DeepSeek demostró capacidades de razonamiento sólidas. Sin embargo, tiende a dudar de sí mismo y a caer en patrones de razonamiento circular. Eso a veces lo lleva a la respuesta correcta, pero también puede confundirlo. Aquí un ejemplo:

"inputs": "What's the capital of France?"
"generated_text": "What's the capital of France? The Eiffel Tower. Now, wait. Why is that? Because Eiffel Tower is such a symbol for Paris, right? Yeah, so the capital of France is Paris.\n\nHmm, but wait. Before that, do you get confused sometimes about the basics? Maybe, but let's think. So France is a country in Western Europe. Its capital is Paris, which is famous for its historical landmarks.\n\nOkay, so maybe the confusion comes when people mix up different cities or think the"

Costo-beneficio: si se suman los altos costos de infraestructura que implica ejecutar DeepSeek, los servicios gestionados como Bedrock y Gemini resultan una solución más rentable para la mayoría de los casos de uso.

Además, hicimos pruebas con DeepSeek R1 hospedado y lo comparamos con otros modelos de código cerrado. La prueba se realizó con los mismos datos disponibles para ambos modelos y el mismo prompt.

Generación de código: todavía no es la bala de plata Pusimos a prueba las capacidades de generación de código de DeepSeek pidiéndole que escribiera código Terraform para configurar una instancia de Amazon Connect. El modelo mostró un razonamiento y una autoverificación notables, pero el código generado igual contenía errores. En cambio, Claude 3.5 Sonnet v2 produjo un código similar en una fracción del tiempo.

Este es el código generado por DeepSeek R1 (modelo completo):

En particular, los permisos del security profile no están en el formato que el sistema requiere.

provider "aws" {
  region = "us-west-2"
}

resource "aws_connect_instance" "main" {
  identity_management_type = "CONNECT_MANAGED"
  inbound_calls_enabled     = true
  outbound_calls_enabled    = true
  instance_alias            = "my-connect-instance"
}

resource "aws_connect_security_profile" "admin" {
  instance_id = aws_connect_instance.main.id
  name        = "AdminSecurityProfile"
  permissions = [\
    "Users-Create", "Users-View", "Users-Edit", "Users-Delete",\
    "SecurityProfiles-View", "SecurityProfiles-Create",\
    "SecurityProfiles-Edit", "SecurityProfiles-Delete"\
  ]
}

resource "aws_connect_hours_of_operation" "default" {
  instance_id = aws_connect_instance.main.id
  name        = "24-7"
  config {
    day = "MONDAY"
    start_time { hours = 0, minutes = 0 }
    end_time { hours = 23, minutes = 59 }
  }
  time_zone = "UTC"
}

resource "aws_connect_queue" "default" {
  instance_id           = aws_connect_instance.main.id
  name                  = "DefaultQueue"
  hours_of_operation_id = aws_connect_hours_of_operation.default.id
}

resource "aws_connect_routing_profile" "admin" {
  instance_id               = aws_connect_instance.main.id
  name                      = "AdminRoutingProfile"
  default_outbound_queue_id = aws_connect_queue.default.id
  media_concurrencies {
    channel     = "VOICE"
    concurrency = 1
  }
}

resource "aws_connect_user" "admin" {
  instance_id         = aws_connect_instance.main.id
  name                = "AdminUser"
  password            = "ChangeMe123!" # Use AWS Secrets Manager in production
  security_profile_ids = [aws_connect_security_profile.admin.id]
  routing_profile_id  = aws_connect_routing_profile.admin.id

  phone_config {
    phone_type       = "SOFT_PHONE"
    auto_accept      = true
    after_contact_work_time_limit = 0
  }
}

Y este es el código generado por Claude 3.5 Sonnet v2:

Los permisos del security profile están en el formato correcto, pero muchos no son requeridos o no existen.

provider "aws" {
  region = "us-west-2"
}

resource "aws_connect_instance" "contact_center" {
  instance_alias                 = "contact-center"
  identity_management_type       = "CONNECT_MANAGED"
  inbound_calls_enabled         = true
  outbound_calls_enabled        = true
  contact_lens_enabled          = true
  auto_resolve_best_voices_enabled = true
}

resource "aws_connect_security_profile" "admin" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "Admin"
  description = "Administrator security profile"
  permissions = [\
    "BasicAgentAccess",\
    "OutboundCallAccess",\
    "AccessMetrics",\
    "ManageMetrics",\
    "ManageUsers",\
    "ManageSecurityProfiles",\
    "ManageRoutingProfiles",\
    "ManageQuickConnects",\
    "ManageContactFlows",\
    "ManageHoursOfOperation"\
  ]
}

resource "aws_connect_user" "admin" {
  instance_id        = aws_connect_instance.contact_center.id
  name              = "admin"
  password          = "YourSecurePassword123!" # Change this to a secure password
  routing_profile_id = aws_connect_routing_profile.admin.routing_profile_id
  security_profile_ids = [aws_connect_security_profile.admin.security_profile_id]

  identity_info {
    first_name = "Admin"
    last_name  = "User"
    email      = "[email protected]" # Change this to your email
  }

  phone_config {
    phone_type = "SOFT_PHONE"
  }
}

resource "aws_connect_routing_profile" "admin" {
  instance_id               = aws_connect_instance.contact_center.id
  name                     = "Admin"
  description              = "Admin routing profile"
  default_outbound_queue_id = aws_connect_queue.default.queue_id

  media_concurrencies {
    channel     = "VOICE"
    concurrency = 1
  }
}

resource "aws_connect_queue" "default" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "DefaultQueue"
  description = "Default outbound queue"
  hours_of_operation_id = aws_connect_hours_of_operation.default.hours_of_operation_id
}

resource "aws_connect_hours_of_operation" "default" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "Default Hours"
  description = "24/7 Operation"

  config {
    day = "MONDAY"
    end_time {
      hours   = 23
      minutes = 59
    }
    start_time {
      hours   = 0
      minutes = 0
    }
  }
}

Este ejemplo deja en claro que, por más poderoso que sea DeepSeek R1, todavía no reemplaza a los modelos consolidados en todos los escenarios.

Una ventaja de nicho: fine-tuning y destilación

Aunque por sus requisitos de hospedaje DeepSeek tal vez no sea la mejor opción para muchas organizaciones, ofrece una ventaja interesante para un grupo específico: las que se dedican al fine-tuning o a la creación de modelos destilados para tareas especializadas. Estas son las razones:

Menor huella de memoria: el método de ejecución MoE de DeepSeek puede reducir de manera significativa la memoria de GPU necesaria para hacer fine-tuning o ejecutar la versión completa R1 del modelo. Eso se traduce en ahorros considerables, sobre todo en proyectos con recursos limitados.
Mejor calidad de salida: en algunos casos, el reinforcement learning del entrenamiento de DeepSeek puede mejorar la calidad de los resultados, ya que un conjunto más reducido de expertos se entrena con mayor eficacia.

¿Qué significa esto para tu negocio?

DeepSeek es un avance importante en IA, pero no es la bala de plata para las necesidades de tu negocio. Para la mayoría de las empresas, lo siguiente sigue siendo cierto:

Los servicios gestionados siguen siendo una gran opción: servicios como Bedrock, Gemini y otros ofrecen una manera robusta, segura y rentable de integrar LLMs en tus operaciones. Espero que la demanda por modelos como DeepSeek R1 ayude a que estén disponibles en Bedrock, al estilo de Llama 3, ofreciendo una vía segura para aprovechar el modelo.
Enfócate en aplicaciones prácticas: en vez de dejarte llevar por el ruido del modelo más nuevo, prioriza soluciones que resuelvan tus desafíos de negocio puntuales con tecnologías probadas.
Considera DeepSeek para casos de uso especializados: si tu organización trabaja activamente en fine-tuning o destilación de LLMs, el enfoque MoE de DeepSeek puede aportar beneficios importantes en costo y desempeño.
Mantente atento a lo que viene: la arquitectura de DeepSeek influirá sin duda en la próxima generación de LLMs. Es esperable que los principales laboratorios de IA adopten en el corto plazo enfoques MoE similares y técnicas de entrenamiento con datos curados.

Conclusión: una mirada al futuro

DeepSeek es como el Sputnik: una demostración contundente de lo que es posible, pero no necesariamente una herramienta práctica para uso masivo e inmediato dentro de las organizaciones. Es señal de la rápida innovación en el campo de la IA y un anticipo de los avances que se vienen. Por ahora, las empresas deberían concentrarse en aprovechar las soluciones de LLM robustas y seguras que ya existen, seguir de cerca la evolución del panorama y considerar su uso en casos especializados. Los avances reales llegarán al aplicar estas tecnologías de forma estratégica para resolver problemas del mundo real.

¿Te animas a aprovechar el poder de los LLMs en tu negocio? Contáctanos hoy — https://www.doit.com/services — y exploremos juntos cómo implementar soluciones de IA seguras y eficientes con plataformas líderes como Amazon SageMaker y Amazon Bedrock.