07/04/2025Il rilascio più strano dell’anno: Ecco la nuova AI di Meta

Meta ha fatto uno dei rilasci più strani dell'anno. 👀

Infatti, l’annuncio del rilascio di Llama 4, la nuova famiglia di modelli AI di Meta, è stato fatto sabato scorso.

Il che è strano per un’azienda come Meta, considerando che si tratta del lancio di uno dei suoi prodotti di punta del 2025. 🗓️

Tra l’altro, tutti pensavamo che Llama 4 sarebbe arrivato al LlamaCon di Meta più avanti questo mese.

È stato quasi come se volessero passare inosservati

Facciamo un secondo un passo indietro per inquadrare meglio questo rilascio…

Meta ha rilasciato i suoi primi modelli nel 2022, con OPT, una serie di modelli linguistici di grandi dimensioni open-weights, che avevano prestazioni simili a GPT-3.

Da lì, ci sono stati diversi rilasci, fino ad arrivare all’ultimo di fine 2024: Llama 3.3.

E ora finalmente è arrivata la famiglia Llama 4.

Questo è un meme che ho visto girare in questi giorni perché molte persone avevano alte aspettative dai nuovi modelli di Meta e sono rimaste deluse. 😂

Vediamoli nello specifico.

I modelli della famiglia Llama 4 sono tutti multimodaliopen-weights e hanno una finestra di contesto* leader nel settore.

*quantità di informazioni che un modello può considerare contemporaneamente quando elabora un input

I nuovi modelli sono 3👇

📌 Scout

  • 109 miliardi di parametri
  • presenta una finestra di contesto di 10 milioni di token
  • può funzionare su una singola GPU H100

📌 Maverick

  • 400 miliardi di parametri
  • una finestra di contesto di 1 milione di token
  • supera sia GPT-4o che Gemini 2.0 Flash nei benchmark chiave

📌 Behemoth

Meta ha anche presentato in anteprima il modello Behemoth da 2 mila miliardi di parametri, ancora in fase di addestramento.

Tutti i modelli utilizzano un'architettura mixture-of-experts (MoE), dove specifici esperti si attivano per ogni token, riducendo le necessità di calcolo e i costi di inferenza.

Ti spiego qui l’architettura MoE. 👈

Puoi già provare i modelli su Hugging Face. 🙌

Ecco i punteggi benchmark riportati da Meta per i primi due modelli:

Meta ha mostrato anche un altro grafico per mettere a confronto Llama 4 Maverick con altri modelli.

Questo, però, ha fatto discutere diverse persone su X. 🤔

E c’è un motivo molto semplice.

Questo è il grafico usato da Meta👇

E se leggi l’ultima nota puoi vedere: “LMArena testing was conducted using Llama 4 Maverick optimized for conversationality”. 

Cosa significa? 🤔

Maverick è uno dei nuovi modelli AI di punta e si posiziona al secondo posto su LMArena (test in cui valutatori umani confrontano gli output dei modelli e scelgono quali preferiscono).

Ma dal grafico sopra si intuisce che la versione di Maverick che Meta ha distribuito su LMArena è diversa dalla versione disponibile per gli sviluppatori.

Questa sarebbe “ottimizzata per la conversazione".

Il problema nel personalizzare un modello per un benchmark, trattenerlo e poi rilasciare una variante "diversa" dello stesso modello è che diventa difficile prevedere quanto bene il modello si comporterà in contesti particolari. ❌

Ed è anche fuorviante.

Infatti, molti su X hanno evidenziato differenze evidenti nel comportamento del modello Maverick scaricabile pubblicamente rispetto al modello ospitato su LMArena.

Ma non solo... 

Ci sono un altro paio di cose che hanno fatto discutere molto.

La prima è che gira voce che Meta abbia suggerito di combinare test set da vari benchmark durante il processo di post-addestramento per ottenere risultati migliori sui benchmark.👇

Ti faccio un esempio per intenderci.

Immagina che il modello viene testato su diversi tipi di compiti:

- In alcuni test (tipo A) il modello va bene

- In altri test (tipo B) il modello va male

Mischiando i test significa che puoi:

- Selezionare più test del tipo A dove il modello è forte

- Includere meno test del tipo B dove il modello è debole

Combinare i risultati di questi test selezionati ti permette di calcolare un punteggio medio più alto, facendo sembrare che il modello funzioni meglio di quanto faccia in realtà. 🙌

È un modo per "nascondere" i punti deboli del modello.

Non si sa ancora se sia vero o meno ma in caso questo venisse confermato, sarebbe un brutto colpo per l'immagine di Meta.

Il secondo aspetto che ha fatto discutere è che una settimana fa l'Head of AI, Joelle Pineau, ha annunciato di lasciare Meta dopo 8 anni

Insomma, questo rilascio è stato molto dibattuto…

E vedremo nelle prossime settimane come andrà a finire.

Il panorama dell’open è sempre più competitivo e mette pressione alle Big Tech closed.

Dopo che DeepSeek ha stravolto il mercato open all'inizio di quest'anno, Meta aveva bisogno di una risposta forte.

Llama 4, sulla carta, sembra una risposta perfetta. 🔥

Ma allo stesso tempo si ha come la sensazione che Meta abbia fatto questo rilascio più per non restare indietro che per altro.

Diciamo che restano molte domande e dubbi sul fatto che i modelli siano veramente di livello superiore nonostante i forti benchmark…

Ci siamo.

Questo è ciò che volevo raccontarti per oggi.

E se vuoi restare aggiornato/a sulle ultime news, seguici sui nostri canali social.

Facciamo tutti i giorni dei post su tematiche AI ✌️

📌 Instagram

📌 LinkedIn

📌 YouTube

📌 Podcast

📌 Telegram


Giacomo Ciarlini - Head of Content & Education - Datapizza

Alexandru Cublesan - Media Manager & Creator - Datapizza