La Cina fa tremare il mondo AI

Nell’ultimo mese, a sorpresa, DeepSeek ha annunciato due nuovi modelli. 💡

DeepSeek è una società cinese di AI che sviluppa modelli linguistici open source e di alta qualità. 🔥

Ma perché ultimamente si parla solo di questo? 👀

In pratica DeepSeek ha rilasciato due modelli 👇

DeepSeek V3
DeepSeek R1 - (nuovo modello che simula il ragionamento)

E raga sono incredibili 😅

Andiamo a vedere più nel dettaglio... 🔍

📌 DeepSeek V3

Il 26 dicembre DeepSeek ha rilasciato V3, un modello con 671 miliardi di parametri che:

È stato addestrato su 14.8 trilioni di token 📚
Raggiunge performance paragonabili a GPT-4 e Claude 🎯
È stato addestrato in soli 2 mesi 🤯
È costato solo $5.57 milioni (contro i $500+ milioni spesi per modelli come LLaMA 3.1) 💰

Vediamo un secondo i benchmark 👇

Come puoi vedere, le performance sono simili (in certi casi anche superiori) ai giganti del settore ad una frazione del costo. 🚀

In pratica, un modello open source (in realtà open weights) sta raggiungendo performance che sono ai livelli dei modelli di punta dei Big Lab AI. 🙌

Se vuoi approfondire la differenza tra open source e open weights ne ho parlato in questo post LinkedIn. ✍️

DeepSeek ha raggiunto questi risultati anche grazie alla Model Distillation, basata sulla conoscenza di GPT-4o. 📈

La model distillation è il processo di trasferimento della conoscenza da un modello di grandi dimensioni a uno più piccolo.

Ma questo ha fatto inca***re qualcuno… 😂

In breve, la distillazione viola i termini di servizio di OpenAI, che però a sua volta ha addestrato i suoi modelli su dati presi da Internet, senza permessi…

E ok, questo è un breve riassunto di V3.

La vera bomba arriva con R1 💣

📌 DeepSeek R1: la risposta open source a o1

R1 è un nuovo modello che simula il ragionamento, come o1. 👀

È un modello “Chain of Thought” che utilizza il Reinforcement Learning per risolvere problemi complessi in modo autonomo. 💡

Perché ne stanno parlando tutti? 🗣️

I motivi sono tanti👇

È 27-50 volte più economico di o1 💸
Ha performance paragonabili o superiori a o1 su molti benchmark 📊
È open source con licenza MIT (puoi usarlo commercialmente e anche fare fine-tuning!) 🔓

Parliamo un attimo delle performance…

Batte o1 sul benchmark AIME (79.8% vs 79.2%) 📈
Le versioni distillate superano modelli proprietari più grandi come GPT-4o 💪
Performa incredibilmente bene in task di matematica, coding e ragionamento 🧮

Insomma, la Cina ha lanciato questi modelli dal nulla, senza alcun preavviso 😂

Tra l’altro, ieri, le azioni di Nvidia hanno perso il 10,7%. Si pensa che questo e altri titoli tech siano precipitati proprio a causa dei rilasci di DeepSeek. 📉

Se ci pensi, è ironico pensare come i modelli Occidentali siano closed source mentre un modello Cinese di questa portata sia open source. 🌍

Ok, ma cosa significa tutto questo per il mondo AI?

In primis, il divario tra modelli open e closed source non è mai stato così piccolo. 👀

E per quanto riguarda invece i costi dell’AI, questi potrebbero diminuire drasticamente. 📉

Al momento R1 sembra veramente aprire nuovi scenari nel mondo dell'AI, soprattutto considerando il rapporto qualità-prezzo. 🔥

A breve dovrebbe essere rilasciato o3-mini di OpenAI e nei prossimi mesi o3. 🙌

Vedremo chi avrà la meglio nel breve periodo. 💪

Sempre che la Cina non sganci altre notizie dal nulla nel giro di poche settimane (o giorni) 😂

Ah tra l’altro, proprio questo giovedì, faremo una live su LinkedIn e YouTube in cui approfondiamo i modelli di DeepSeek a livello tecnico. 💡

Fidati, ne vale la pena approfondire questa notizia 👈

Ti lascio qui il link per iscriverti alla live! ✌️

Il link lo metto non appena creiamo l’evento domani mattina

By Giacomo Ciarlini - Head of Content & Education - Datapizza

28/01/2025La Cina fa tremare il mondo AI