DeepSeek: il momento Sputnik dell'AI cinese

Il mondo dell'AI è in fermento per il rilascio di DeepSeek, un nuovo large language model (LLM) di origine cinese. Proprio come il lancio del satellite Sputnik da parte dell'Unione Sovietica nel 1957, DeepSeek ha scosso l'intero settore, presentando un'architettura nuova e di grande impatto e sollevando interrogativi sul futuro dello sviluppo dell'AI. Ma al di là del clamore, cosa rappresenta davvero DeepSeek per le aziende che vogliono sfruttare la potenza degli LLM? È una svolta epocale o una semplice prova di concetto destinata a essere superata in tempi brevi?

Cosa rende DeepSeek diverso: una rete di esperti

DeepSeek si distingue per tre innovazioni chiave:

Esecuzione Mixture of Experts (MoE): al posto di un unico modello monolitico, DeepSeek si affida a una "rete" di agenti esperti più piccoli e specializzati. Quando viene assegnato un task, si attiva soltanto un sottoinsieme pertinente di questi esperti (e dei relativi parametri). Il risultato è un modello molto più efficiente sul piano delle risorse computazionali.
Dati di cold-start per un ragionamento più solido: DeepSeek sfrutta un piccolo set di dati di esempi di chain-of-thought di alta qualità, annotati da esseri umani, per affinare il modello prima di applicare il reinforcement learning. Questi dati di cold-start non si limitano a migliorare la leggibilità del modello: ne potenziano anche le capacità di ragionamento, fornendo una base solida per il successivo addestramento RL. Un approccio che dimostra il potenziale della combinazione tra competenza umana e reinforcement learning per costruire modelli di ragionamento più efficaci.
Reinforcement Learning per potenziare il ragionamento: DeepSeek adotta un processo di reinforcement learning multi-stadio per rafforzare le capacità di ragionamento del modello. Il processo prevede l'addestramento su un'ampia varietà di task di ragionamento — coding, matematica, scienze e logica — con ricompense basate su regole che guidano l'apprendimento. L'uso del RL consente al modello di esplorare in autonomia e di sviluppare strategie di ragionamento efficaci, con miglioramenti significativi delle prestazioni sui task di ragionamento complessi.

L'elefante nella stanza: la sicurezza

Come per qualsiasi nuova tecnologia — a maggior ragione quando proviene da un Paese con uno scenario geopolitico complesso — la sicurezza è una priorità assoluta. DeepSeek è open-source e questo permette alla community di analizzarne il codice in cerca di possibili bias, falle o rischi di sicurezza; ma la sola provenienza è già sufficiente a far suonare qualche campanello d'allarme.

Praticità: dove l'hype si scontra con la realtà

Per quanto l'architettura di DeepSeek sia rivoluzionaria, oggi la sua applicabilità concreta per la maggior parte delle aziende è limitata. Vediamo perché:

Elevato consumo di risorse: eseguire il modello DeepSeek R1 completo richiede un investimento consistente in GPU costose, mettendolo fuori portata per molte organizzazioni.
Criticità delle API: usare l'API di DeepSeek è più accessibile, ma comporta implicazioni sulla privacy dei dati. Le condizioni di DeepSeek prevedono che i dati di input possano essere usati per migliorare il modello — un punto inaccettabile per molte aziende che gestiscono dati sensibili — e che i dati raccolti vengano archiviati in Cina.
Modello più piccolo, qualità inferiore: è possibile distribuire una versione ridotta di DeepSeek, ma il calo di prestazioni rispetto a R1 è evidente e la rende meno competitiva rispetto ai servizi gestiti già disponibili.

Eseguire DeepSeek in sicurezza: il vantaggio del cloud

Per chi vuole davvero sperimentare con DeepSeek, l'approccio più sicuro è distribuirlo all'interno di un ambiente cloud controllato come AWS, GCP o Azure. In questo modo si mantiene il pieno controllo su dati e infrastruttura, mitigando alcuni dei rischi di sicurezza tipici dei modelli open-source, soprattutto quando la provenienza solleva qualche perplessità. Si tratta di un approccio più costoso rispetto all'utilizzo di servizi gestiti come Amazon Bedrock o Gemini di Google, ma offre il massimo livello di sicurezza e controllo.

DeepSeek e la concorrenza: un confronto

Siamo realisti: per quanto DeepSeek sia notevole, è improbabile che a breve detronizzi player consolidati come Claude di Anthropic, GPT-4 di OpenAI o Gemini di Google. Questi modelli hanno un netto vantaggio in termini di prestazioni, ecosistema e — soprattutto — adozione enterprise.

Abbiamo condotto alcuni test eseguendo i modelli DeepSeek Distilled su Amazon SageMaker e confrontandone le prestazioni con quelle dei modelli già disponibili nell'ecosistema AWS. I risultati sono stati chiari:

Divario di prestazioni: DeepSeek si è dimostrato promettente, ma resta indietro rispetto ai modelli leader in termini di accuratezza, fluidità e utilità complessiva nei diversi scenari di business.
Ragionamento bizzarro: DeepSeek ha mostrato solide capacità di ragionamento, ma con la tendenza a rimettere in discussione le proprie risposte, generando schemi circolari. A volte questo aiuta a raggiungere la risposta corretta, altre volte finisce per confondere il modello. Un esempio:

"inputs": "What's the capital of France?"
"generated_text": "What's the capital of France? The Eiffel Tower. Now, wait. Why is that? Because Eiffel Tower is such a symbol for Paris, right? Yeah, so the capital of France is Paris.\n\nHmm, but wait. Before that, do you get confused sometimes about the basics? Maybe, but let's think. So France is a country in Western Europe. Its capital is Paris, which is famous for its historical landmarks.\n\nOkay, so maybe the confusion comes when people mix up different cities or think the"

Convenienza economica: tenendo conto degli elevati costi infrastrutturali necessari per eseguire DeepSeek, servizi gestiti come Bedrock e Gemini offrono una soluzione più conveniente nella maggior parte dei casi d'uso.

Abbiamo poi effettuato alcuni test su DeepSeek R1 in versione hosted, mettendolo a confronto con altri modelli closed-source. Il test è stato condotto fornendo a entrambi i modelli gli stessi dati e lo stesso prompt.

Generazione di codice: non ancora una bacchetta magica. Abbiamo messo alla prova le capacità di code generation di DeepSeek chiedendogli di scrivere codice Terraform per configurare un'istanza Amazon Connect. Il modello ha dimostrato capacità di ragionamento e auto-verifica notevoli, ma il codice generato conteneva comunque errori. Claude 3.5 Sonnet v2, al contrario, ha prodotto un codice analogo in una frazione del tempo.

Ecco il codice generato da DeepSeek R1 (modello completo):

In particolare, le permissions del security profile non rispettano il formato richiesto dal sistema.

provider "aws" {
  region = "us-west-2"
}

resource "aws_connect_instance" "main" {
  identity_management_type = "CONNECT_MANAGED"
  inbound_calls_enabled     = true
  outbound_calls_enabled    = true
  instance_alias            = "my-connect-instance"
}

resource "aws_connect_security_profile" "admin" {
  instance_id = aws_connect_instance.main.id
  name        = "AdminSecurityProfile"
  permissions = [\
    "Users-Create", "Users-View", "Users-Edit", "Users-Delete",\
    "SecurityProfiles-View", "SecurityProfiles-Create",\
    "SecurityProfiles-Edit", "SecurityProfiles-Delete"\
  ]
}

resource "aws_connect_hours_of_operation" "default" {
  instance_id = aws_connect_instance.main.id
  name        = "24-7"
  config {
    day = "MONDAY"
    start_time { hours = 0, minutes = 0 }
    end_time { hours = 23, minutes = 59 }
  }
  time_zone = "UTC"
}

resource "aws_connect_queue" "default" {
  instance_id           = aws_connect_instance.main.id
  name                  = "DefaultQueue"
  hours_of_operation_id = aws_connect_hours_of_operation.default.id
}

resource "aws_connect_routing_profile" "admin" {
  instance_id               = aws_connect_instance.main.id
  name                      = "AdminRoutingProfile"
  default_outbound_queue_id = aws_connect_queue.default.id
  media_concurrencies {
    channel     = "VOICE"
    concurrency = 1
  }
}

resource "aws_connect_user" "admin" {
  instance_id         = aws_connect_instance.main.id
  name                = "AdminUser"
  password            = "ChangeMe123!" # Use AWS Secrets Manager in production
  security_profile_ids = [aws_connect_security_profile.admin.id]
  routing_profile_id  = aws_connect_routing_profile.admin.id

  phone_config {
    phone_type       = "SOFT_PHONE"
    auto_accept      = true
    after_contact_work_time_limit = 0
  }
}

Ed ecco il codice generato da Claude 3.5 Sonnet v2:

Le permissions del security profile sono nel formato corretto, ma molte non sono necessarie o non esistono.

provider "aws" {
  region = "us-west-2"
}

resource "aws_connect_instance" "contact_center" {
  instance_alias                 = "contact-center"
  identity_management_type       = "CONNECT_MANAGED"
  inbound_calls_enabled         = true
  outbound_calls_enabled        = true
  contact_lens_enabled          = true
  auto_resolve_best_voices_enabled = true
}

resource "aws_connect_security_profile" "admin" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "Admin"
  description = "Administrator security profile"
  permissions = [\
    "BasicAgentAccess",\
    "OutboundCallAccess",\
    "AccessMetrics",\
    "ManageMetrics",\
    "ManageUsers",\
    "ManageSecurityProfiles",\
    "ManageRoutingProfiles",\
    "ManageQuickConnects",\
    "ManageContactFlows",\
    "ManageHoursOfOperation"\
  ]
}

resource "aws_connect_user" "admin" {
  instance_id        = aws_connect_instance.contact_center.id
  name              = "admin"
  password          = "YourSecurePassword123!" # Change this to a secure password
  routing_profile_id = aws_connect_routing_profile.admin.routing_profile_id
  security_profile_ids = [aws_connect_security_profile.admin.security_profile_id]

  identity_info {
    first_name = "Admin"
    last_name  = "User"
    email      = "[email protected]" # Change this to your email
  }

  phone_config {
    phone_type = "SOFT_PHONE"
  }
}

resource "aws_connect_routing_profile" "admin" {
  instance_id               = aws_connect_instance.contact_center.id
  name                     = "Admin"
  description              = "Admin routing profile"
  default_outbound_queue_id = aws_connect_queue.default.queue_id

  media_concurrencies {
    channel     = "VOICE"
    concurrency = 1
  }
}

resource "aws_connect_queue" "default" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "DefaultQueue"
  description = "Default outbound queue"
  hours_of_operation_id = aws_connect_hours_of_operation.default.hours_of_operation_id
}

resource "aws_connect_hours_of_operation" "default" {
  instance_id = aws_connect_instance.contact_center.id
  name        = "Default Hours"
  description = "24/7 Operation"

  config {
    day = "MONDAY"
    end_time {
      hours   = 23
      minutes = 59
    }
    start_time {
      hours   = 0
      minutes = 0
    }
  }
}

L'esempio dimostra che, per quanto potente, DeepSeek R1 non è ancora pronto a sostituire i modelli consolidati in tutti gli scenari.

Un vantaggio di nicchia: fine-tuning e distillazione

Sebbene DeepSeek non sia la scelta migliore per molte organizzazioni a causa dei suoi requisiti di hosting, offre un vantaggio interessante per una specifica categoria di realtà: quelle impegnate nel fine-tuning o nella creazione di modelli distillati per task specializzati. Ecco perché:

Footprint di memoria ridotto: il metodo di esecuzione MoE di DeepSeek riduce sensibilmente la memoria GPU necessaria per il fine-tuning o per l'esecuzione della versione completa R1, traducendosi in risparmi sostanziali, soprattutto per progetti con risorse limitate.
Qualità dell'output migliore: in alcuni casi, il Reinforcement Learning impiegato nel training di DeepSeek può portare a un output qualitativamente superiore, perché un set ridotto di esperti si presta a un addestramento più efficace.

Cosa significa tutto questo per la sua azienda?

DeepSeek è uno sviluppo significativo nel panorama dell'AI, ma non è la soluzione miracolosa per le esigenze del suo business. Per la maggior parte delle aziende valgono questi punti:

I servizi gestiti restano una scelta solida: Bedrock, Gemini e altri servizi simili offrono un modo robusto, sicuro e conveniente per integrare gli LLM nelle proprie operations. Ci aspettiamo che la domanda per modelli come DeepSeek R1 contribuirà a portarli su Bedrock, sulla scia di quanto avvenuto con Llama 3, offrendo una via sicura per sfruttarne le potenzialità.
Si concentri sulle applicazioni concrete: invece di farsi travolgere dall'hype sull'ultimo modello, dia priorità alle soluzioni che rispondono alle sue specifiche sfide di business con tecnologie collaudate.
Valuti DeepSeek per casi d'uso specializzati: se la sua organizzazione lavora attivamente su fine-tuning o distillazione di LLM, l'approccio MoE di DeepSeek può offrire vantaggi rilevanti in termini di costi e prestazioni.
Tenga d'occhio gli sviluppi futuri: l'architettura di DeepSeek influenzerà senza dubbio la prossima generazione di LLM. Nel prossimo futuro è lecito attendersi che i principali laboratori di AI adotteranno approcci MoE simili e tecniche di addestramento basate su dati curati.

Conclusione: uno sguardo al futuro

DeepSeek è come lo Sputnik: una potente dimostrazione di ciò che è possibile, ma non necessariamente uno strumento pratico per un uso immediato e diffuso all'interno delle organizzazioni. È il segnale di un'innovazione rapida nel campo dell'AI e l'anticipazione dei progressi che verranno. Per ora, le aziende dovrebbero puntare sulle soluzioni LLM robuste e sicure già disponibili, monitorando da vicino l'evoluzione del panorama e valutandone l'impiego in casi specializzati. I veri progressi arriveranno applicando queste tecnologie in modo strategico per risolvere problemi concreti.

È pronto a liberare la potenza degli LLM per la sua azienda? Ci contatti oggi stesso — https://www.doit.com/services — per scoprire come possiamo aiutarla a implementare soluzioni AI sicure ed efficienti su piattaforme leader di settore come Amazon SageMaker e Amazon Bedrock.