DeepSeek: o momento Sputnik da China em IA — vale a pena para seu negócio?

O mundo da IA está em polvorosa com o lançamento do DeepSeek, um novo large language model (LLM) vindo da China. Assim como o lançamento do satélite Sputnik pela União Soviética em 1957, o DeepSeek causou uma onda de choque no setor, ao apresentar uma arquitetura nova e impressionante e levantar dúvidas sobre o futuro do desenvolvimento de IA. Mas, por trás do hype, o que o DeepSeek realmente representa para empresas que querem aproveitar o poder dos LLMs? É um divisor de águas ou só uma prova de conceito fadada a ser superada rapidamente?

O diferencial do DeepSeek: uma malha de especialistas

O DeepSeek se destaca por três inovações principais:

Execução Mixture of Experts (MoE): em vez de um único modelo monolítico, o DeepSeek usa uma "malha" de agentes especialistas menores e especializados. Quando uma tarefa é apresentada, apenas um subconjunto relevante desses especialistas (e seus parâmetros) é ativado. Isso torna o modelo bem mais eficiente em termos de recursos computacionais.
Dados de cold-start para um raciocínio mais apurado: o DeepSeek usa um pequeno conjunto de exemplos de chain-of-thought de alta qualidade, anotados por humanos, para ajustar o modelo antes de aplicar reinforcement learning. Esses dados de cold-start não só melhoram a legibilidade do modelo como também aprimoram sua capacidade de raciocínio, dando uma base sólida para o treinamento posterior por RL. Essa abordagem mostra o potencial de combinar expertise humana com reinforcement learning para desenvolver modelos de raciocínio mais eficazes.
Reinforcement Learning para aprimorar o raciocínio: o DeepSeek aplica um processo de reinforcement learning em várias etapas para aprimorar a capacidade de raciocínio do modelo. Esse processo envolve treinar o modelo em um conjunto diverso de tarefas de raciocínio, incluindo programação, matemática, ciência e lógica, usando recompensas baseadas em regras para guiar o aprendizado. O uso de RL permite que o modelo explore e desenvolva, de forma autônoma, estratégias de raciocínio eficazes, gerando melhorias expressivas no desempenho em tarefas complexas.

O elefante na sala: segurança

Como acontece com qualquer tecnologia nova — ainda mais uma vinda de um país com um cenário geopolítico complexo —, as preocupações com segurança são fundamentais. Embora o DeepSeek seja open-source e a comunidade possa analisar seu código em busca de potenciais vieses, brechas ou riscos de segurança, a própria origem já acende alguns sinais de alerta.

Praticidade: onde o hype encontra a realidade

Por mais revolucionária que seja a arquitetura do DeepSeek, sua aplicação prática para a maioria das empresas é, hoje, limitada. Veja por quê:

Alto consumo de recursos: rodar o modelo completo do DeepSeek R1 exige um investimento considerável em GPUs caras, o que coloca a solução fora do alcance de muitas organizações.
Preocupações com a API: usar a API do DeepSeek, embora mais acessível, traz implicações para a privacidade dos dados. Os termos do DeepSeek indicam que a empresa pode usar seus dados de entrada para aprimorar o modelo, o que é inviável para muitas empresas que lidam com dados sensíveis — e qualquer dado capturado fica armazenado na China.
Modelo menor, qualidade reduzida: dá para implantar uma versão menor do DeepSeek, mas o resultado é uma queda perceptível de desempenho em relação ao R1, o que o torna menos competitivo frente aos serviços gerenciados já existentes.

Rodando o DeepSeek com segurança: a vantagem da nuvem

Para quem quer mesmo experimentar o DeepSeek, a abordagem mais segura é implantá-lo em um ambiente de nuvem controlado, como AWS, GCP ou Azure. Assim, você mantém o controle total sobre seus dados e sua infraestrutura, e mitiga parte dos riscos de segurança associados a modelos open-source — sobretudo aqueles cuja origem gera preocupação. Essa abordagem sai mais cara do que usar serviços gerenciados como Amazon Bedrock ou Gemini, do Google, mas oferece o mais alto nível de segurança e controle.

DeepSeek vs. concorrência: uma comparação

Vamos ser realistas. Por mais impressionante que o DeepSeek seja, dificilmente ele vai destronar players consolidados como o Claude da Anthropic, o GPT-4 da OpenAI ou o Gemini do Google tão cedo. Esses modelos saíram na frente em desempenho, ecossistema e, principalmente, em adoção corporativa.

Fizemos pequenos testes rodando os modelos DeepSeek Distilled no Amazon SageMaker e comparamos seu desempenho com modelos já existentes no ecossistema da AWS. Os resultados foram claros:

Diferença de desempenho: mesmo mostrando potencial, o DeepSeek ainda ficou atrás dos modelos líderes em precisão, fluência e utilidade geral em diversos cenários de negócios.
Peculiaridades de raciocínio: o DeepSeek demonstrou uma boa capacidade de raciocínio. Por outro lado, tinha a tendência de questionar a si mesmo, gerando padrões de raciocínio circular. Às vezes, isso até ajuda a chegar à resposta certa, mas também pode confundir o modelo. Veja um exemplo:

"inputs": "What's the capital of France?"
"generated_text": "What's the capital of France? The Eiffel Tower. Now, wait. Why is that? Because Eiffel Tower is such a symbol for Paris, right? Yeah, so the capital of France is Paris.\n\nHmm, but wait. Before that, do you get confused sometimes about the basics? Maybe, but let's think. So France is a country in Western Europe. Its capital is Paris, which is famous for its historical landmarks.\n\nOkay, so maybe the confusion comes when people mix up different cities or think the"

Custo-benefício: considerando os altos custos de infraestrutura para rodar o DeepSeek, serviços gerenciados como Bedrock e Gemini saem como uma solução mais econômica para a maioria dos casos de uso.

Também fizemos testes com o DeepSeek R1 hospedado, comparando-o com outros modelos de código fechado. Os mesmos dados e o mesmo prompt foram usados nos dois modelos.

Geração de código: ainda não é uma bala de prata. Testamos a capacidade de geração de código do DeepSeek pedindo que criasse código Terraform para configurar uma instância do Amazon Connect. O modelo demonstrou raciocínio impressionante e autoverificação, mas o código gerado ainda continha erros. Em contrapartida, o Claude 3.5 Sonnet v2 produziu um código semelhante em uma fração do tempo.

Aqui está o código gerado pelo DeepSeek R1 (modelo completo):

Em particular, as permissões do security profile não estão no formato exigido pelo sistema.

provider "aws" {
  region = "us-west-2"
}

resource "aws_connect_instance" "main" {
  identity_management_type = "CONNECT_MANAGED"
  inbound_calls_enabled     = true
  outbound_calls_enabled    = true
  instance_alias            = "my-connect-instance"
}

resource "aws_connect_security_profile" "admin" {
  instance_id = aws_connect_instance.main.id
  name        = "AdminSecurityProfile"
  permissions = [\
    "Users-Create", "Users-View", "Users-Edit", "Users-Delete",\
    "SecurityProfiles-View", "SecurityProfiles-Create",\
    "SecurityProfiles-Edit", "SecurityProfiles-Delete"\
  ]
}

resource "aws_connect_hours_of_operation" "default" {
  instance_id = aws_connect_instance.main.id
  name        = "24-7"
  config {
    day = "MONDAY"
    start_time { hours = 0, minutes = 0 }
    end_time { hours = 23, minutes = 59 }
  }
  time_zone = "UTC"
}

resource "aws_connect_queue" "default" {
  instance_id           = aws_connect_instance.main.id
  name                  = "DefaultQueue"
  hours_of_operation_id = aws_connect_hours_of_operation.default.id
}

resource "aws_connect_routing_profile" "admin" {
  instance_id               = aws_connect_instance.main.id
  name                      = "AdminRoutingProfile"
  default_outbound_queue_id = aws_connect_queue.default.id
  media_concurrencies {
    channel     = "VOICE"
    concurrency = 1
  }
}

resource "aws_connect_user" "admin" {
  instance_id         = aws_connect_instance.main.id
  name                = "AdminUser"
  password            = "ChangeMe123!" # Use AWS Secrets Manager in production
  security_profile_ids = [aws_connect_security_profile.admin.id]
  routing_profile_id  = aws_connect_routing_profile.admin.id

  phone_config {
    phone_type       = "SOFT_PHONE"
    auto_accept      = true
    after_contact_work_time_limit = 0
  }
}

E aqui está o código gerado pelo Claude 3.5 Sonnet v2:

As permissões do security profile estão no formato correto, mas muitas não são necessárias ou nem existem.

provider "aws" {
  region = "us-west-2"
}

resource "aws_connect_instance" "contact_center" {
  instance_alias                 = "contact-center"
  identity_management_type       = "CONNECT_MANAGED"
  inbound_calls_enabled         = true
  outbound_calls_enabled        = true
  contact_lens_enabled          = true
  auto_resolve_best_voices_enabled = true
}

resource "aws_connect_security_profile" "admin" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "Admin"
  description = "Administrator security profile"
  permissions = [\
    "BasicAgentAccess",\
    "OutboundCallAccess",\
    "AccessMetrics",\
    "ManageMetrics",\
    "ManageUsers",\
    "ManageSecurityProfiles",\
    "ManageRoutingProfiles",\
    "ManageQuickConnects",\
    "ManageContactFlows",\
    "ManageHoursOfOperation"\
  ]
}

resource "aws_connect_user" "admin" {
  instance_id        = aws_connect_instance.contact_center.id
  name              = "admin"
  password          = "YourSecurePassword123!" # Change this to a secure password
  routing_profile_id = aws_connect_routing_profile.admin.routing_profile_id
  security_profile_ids = [aws_connect_security_profile.admin.security_profile_id]

  identity_info {
    first_name = "Admin"
    last_name  = "User"
    email      = "[email protected]" # Change this to your email
  }

  phone_config {
    phone_type = "SOFT_PHONE"
  }
}

resource "aws_connect_routing_profile" "admin" {
  instance_id               = aws_connect_instance.contact_center.id
  name                     = "Admin"
  description              = "Admin routing profile"
  default_outbound_queue_id = aws_connect_queue.default.queue_id

  media_concurrencies {
    channel     = "VOICE"
    concurrency = 1
  }
}

resource "aws_connect_queue" "default" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "DefaultQueue"
  description = "Default outbound queue"
  hours_of_operation_id = aws_connect_hours_of_operation.default.hours_of_operation_id
}

resource "aws_connect_hours_of_operation" "default" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "Default Hours"
  description = "24/7 Operation"

  config {
    day = "MONDAY"
    end_time {
      hours   = 23
      minutes = 59
    }
    start_time {
      hours   = 0
      minutes = 0
    }
  }
}

Esse exemplo mostra que, embora o DeepSeek R1 seja um modelo poderoso, ele ainda não substitui os modelos consolidados em todos os cenários.

Uma vantagem de nicho: fine-tuning e destilação

O DeepSeek pode não ser a melhor escolha para muitas organizações, dada a sua exigência de hospedagem, mas oferece uma vantagem interessante para um grupo específico de empresas: aquelas que trabalham com fine-tuning ou na criação de modelos destilados para tarefas especializadas. Veja por quê:

Menor footprint de memória: o método de execução MoE do DeepSeek pode reduzir bastante a memória de GPU necessária para fazer fine-tuning ou rodar a versão completa do R1. Isso pode gerar uma economia substancial, principalmente em projetos com recursos limitados.
Qualidade de saída aprimorada: em alguns casos, o Reinforcement Learning aplicado no treinamento do DeepSeek pode resultar em uma saída de melhor qualidade — afinal, um conjunto menor de especialistas pode ser treinado de forma mais eficaz.

O que isso significa para o seu negócio?

O DeepSeek é um avanço importante em IA, mas não é uma bala de prata para as necessidades do seu negócio. Para a maioria das empresas, vale o seguinte:

Serviços gerenciados continuam sendo uma escolha forte: serviços como Bedrock, Gemini e outros oferecem uma forma robusta, segura e econômica de integrar LLMs às suas operações. Acredito que a demanda por modelos como o DeepSeek R1 vai ajudar a torná-los disponíveis no Bedrock, à semelhança do Llama 3, abrindo um caminho seguro para usar o modelo.
Foque em aplicações práticas: em vez de embarcar no hype do modelo da vez, priorize soluções que resolvam desafios específicos do seu negócio com tecnologias comprovadas.
Considere o DeepSeek para casos de uso especializados: se sua organização atua ativamente em fine-tuning ou destilação de LLMs, a abordagem MoE do DeepSeek pode trazer ganhos relevantes de custo e desempenho.
Fique de olho nos próximos avanços: a arquitetura do DeepSeek certamente vai influenciar a próxima geração de LLMs. Espere ver abordagens MoE parecidas e técnicas de treinamento com dados curados sendo adotadas pelos principais laboratórios de IA em um futuro próximo.

Conclusão: um vislumbre do futuro

O DeepSeek é como o Sputnik — uma demonstração poderosa do que é possível, mas não necessariamente uma ferramenta prática para uso amplo e imediato dentro das organizações. É um sinal da rápida inovação no campo da IA e um prenúncio dos avanços que estão por vir. Por enquanto, as empresas devem se concentrar em aproveitar as soluções de LLM robustas e seguras já disponíveis, sem perder de vista um cenário em constante evolução e considerando o uso do modelo em casos especializados. Os avanços de verdade virão da aplicação estratégica dessas tecnologias para resolver problemas do mundo real.

Pronto para liberar o poder dos LLMs no seu negócio? Fale com a gente hoje mesmo — https://www.doit.com/services — para descobrir como podemos ajudar a implementar soluções de IA seguras e eficientes em plataformas líderes de mercado, como Amazon SageMaker e Amazon Bedrock.