La Cina fa tremare il mondo AI

Nell’ultimo mese, a sorpresa, DeepSeek ha annunciato due nuovi modelli. 💡

DeepSeek è una società cinese di AI che sviluppa modelli linguistici open source e di alta qualità. 🔥

*Ma perché ultimamente si parla solo di questo?* 👀

In pratica DeepSeek ha rilasciato due modelli 👇

DeepSeek V3
DeepSeek R1 - (nuovo modello che simula il ragionamento)

*E raga sono incredibili 😅*

Andiamo a vedere più nel dettaglio... 🔍

📌 DeepSeek V3

Il 26 dicembre DeepSeek ha rilasciato V3, un modello con 671 miliardi di parametri che:

È stato addestrato su 14.8 trilioni di token 📚
Raggiunge performance paragonabili a GPT-4 e Claude 🎯
È stato addestrato in soli 2 mesi 🤯
È costato *solo* $5.57 milioni (contro i $500+ milioni spesi per modelli come LLaMA 3.1) 💰

Vediamo un secondo i benchmark 👇

Come puoi vedere, le performance sono simili (in certi casi anche superiori) ai giganti del settore ad una frazione del costo. 🚀

In pratica, un modello open source (in realtà open weights) sta raggiungendo performance che sono ai livelli dei modelli di punta dei Big Lab AI. 🙌

Se vuoi approfondire la *differenza tra open source e open weights* ne ho parlato in questo post LinkedIn. ✍️

DeepSeek ha raggiunto questi risultati anche grazie alla *Model Distillation*, basata sulla conoscenza di GPT-4o. 📈

La model distillation è il processo di trasferimento della conoscenza da un modello di grandi dimensioni a uno più piccolo.

Ma questo ha fatto inca***re qualcuno… 😂

In breve, la distillazione *viola i termini di servizio di OpenAI*, che però a sua volta ha addestrato i suoi modelli su dati presi da Internet, senza permessi…

*E ok, questo è un breve riassunto di V3.*

La vera bomba arriva con R1 💣

📌 DeepSeek R1: la risposta open source a o1

R1 è un nuovo modello che simula il ragionamento, come o1. 👀

È un modello “*Chain of Thought*” che utilizza il Reinforcement Learning per risolvere problemi complessi in modo autonomo. 💡

Perché ne stanno parlando tutti? 🗣️

I motivi sono tanti👇

È 27-50 volte più economico di o1 💸
Ha performance paragonabili o superiori a o1 su molti benchmark 📊
È open source con licenza MIT (puoi usarlo commercialmente e anche fare fine-tuning!) 🔓

*Parliamo un attimo delle performance…*

Batte o1 sul benchmark AIME (79.8% vs 79.2%) 📈
Le versioni distillate superano modelli proprietari più grandi come GPT-4o 💪
Performa incredibilmente bene in task di matematica, coding e ragionamento 🧮

Insomma, la Cina ha lanciato questi modelli dal nulla, senza alcun preavviso 😂

Tra l’altro, ieri, le azioni di Nvidia hanno perso il 10,7%. Si pensa che questo e altri titoli tech siano precipitati proprio a causa dei rilasci di DeepSeek. 📉

Se ci pensi, è ironico pensare come i *modelli Occidentali* siano *closed source* mentre un modello Cinese di questa portata sia open source. 🌍

*Ok, ma cosa significa tutto questo per il mondo AI?*

In primis, il divario tra modelli open e closed source non è mai stato così piccolo. 👀

E per quanto riguarda invece i costi dell’AI, questi potrebbero diminuire drasticamente. 📉

Al momento R1 sembra veramente aprire nuovi scenari nel mondo dell'AI, soprattutto considerando il rapporto qualità-prezzo. 🔥

A breve dovrebbe essere rilasciato *o3-mini di OpenAI* e nei prossimi mesi o3. 🙌

Vedremo chi avrà la meglio nel breve periodo. 💪

Sempre che la Cina non sganci altre notizie dal nulla nel giro di poche settimane (o giorni) 😂

Ah tra l’altro, proprio questo giovedì, faremo una live su LinkedIn e YouTube in cui approfondiamo i modelli di DeepSeek a livello tecnico. 💡

Fidati, ne vale la pena approfondire questa notizia 👈

Ti lascio qui il link per iscriverti alla live! ✌️

Il link lo metto non appena creiamo l’evento domani mattina

***

By Giacomo Ciarlini - Head of Content & Education - Datapizza