xAI, azienda che sviluppa modelli AI lanciata da Elon Musk, ha rilasciato la *famiglia di modelli Grok-3*.💡
A detta di Musk, questa sarebbe *l’AI più intelligente al mondo*. 👀

*Tu lo sapevi?*
Te lo chiedo anche perché ho avuto come l’impressione che non ci sia stato particolare entusiasmo. 😅
Come magari è stato con l’annuncio di o1 o o3 di OpenAI.
Elon Musk è un personaggio…ormai lo conosciamo.
E siamo abituati a leggere i suoi post su X che (spesso) sono *molto gonfiati*. 😂
Qui volevo fare un appunto.
È interessante secondo me anche notare come i vari player comunicano il rilascio dei modelli.
Se ti ricordi, DeepSeek aveva rilasciato dei modelli bomba senza alcun preavviso 😂
OpenAI invece tende a non alzare le aspettative in anticipo.
Mentre Elon Musk aveva già definito i suoi modelli come *i migliori* ancora prima dell’annuncio.
Ma quindi…
*Veramente Musk ha rilasciato l’AI più intelligente al mondo?* 🌍
Vediamo meglio👇
L’annuncio dei nuovi modelli Grok è stato fatto con una live lunedì sera scorso su X. 🎥
(Annunciare i nuovi modelli con delle live è diventato un po’ uno standard.) 😄
I nuovi modelli sono:
📌 Grok-3
📌 Grok-3 mini
📌 Grok-3 Reasoning Beta
📌 Grok-3 mini Reasoning
Sembra che i modelli di xAI siano *i migliori modelli disponibili oggi* (dai benchmark).
Ma le aziende che sviluppano modelli AI, spesso tendono a mettere in mostra i benchmark su cui i loro modelli hanno performance migliori.
E fin qui ok 😂
Infatti puoi vedere che su tutti i benchmark più comuni come:
I modelli Grok superano (o pareggiano) gli altri.

Qui puoi vedere anche i modelli Grok di reasoning messi a confronto con altri modelli di reasoning.

Noti una cosa? 👀
Hanno omesso o3 dai grafici nella live…
E forse per questo motivo 😂👇

Anche su ChatBotArena i modelli Grok superano gli altri, posizionandosi al primo posto.

Secondo Karpathy (che io stimo tantissimo), i modelli Grok hanno delle performance che tutto sommato sono alla pari delle capacità di o1-pro e migliori di DeepSeek-R1.
Ma anticipa che servono altre valutazioni per fare *affermazioni forti*. 🙌
Ma c’è un problema.
Questi benchmark non funzionano più.
O per lo meno non funzionano più bene come un anno fa. ⌛️
I modelli stanno migliorando così velocemente che i benchmark sono saturi.
Quando un modello ottiene ottime performance su un benchmark si dice che quel *benchmark è saturo*. 🚨
Il che significa che non è più uno strumento utile a dimostrare le capacità di un modello perché ormai tutti i modelli ottengono punteggi molto alti.
Il 2024 è stato l’anno in cui i *benchmark sono diventati sempre più saturi*. 🗓️
Siamo sempre stati abituati a vedere i modelli testati sui benchmark indicati sopra (fisica, biologia e chimica).
Questi benchmark sono molto difficili e nemmeno esperti con un PhD nel rispettivo settore riescono ad ottenere un punteggio più alto del 70%. 📉
Ma ora i modelli hanno performance migliori degli umani. Quindi non è più un buon metodo per misurare il progresso.
Quasi sicuramente le aziende che sviluppano modelli hanno altri metodi per valutare internamente le performance effettive. 🔍
Che però difficilmente condividono perché i loro modelli *devono risultare i migliori*.
Se aumentassimo la trasparenza riusciremmo anche a capire quali altri benchmark si potrebbero implementare per nuove e future valutazioni.
Una cosa è certa, servono nuovi benchmark. ✅
*Ma quindi…i modelli Grok sono i più intelligente al mondo?*
Sui benchmark sì.
Nel concreto è presto per dirlo. Da un primo utilizzo sembrerebbe di no. 🙌
*Volevo condividerti un’ultima riflessione.*
Elon Musk probabilmente è consapevole che i suoi modelli non sono effettivamente i migliori al momento.
Ma ha voluto fare questa mossa per un motivo.
Voleva raggiungere le migliori posizioni sui benchmark e poter dire che (*sulla carta*) ha l’AI più intelligente al mondo. 💪
E voleva farlo prima del rilascio di modelli come o3 o GPT-4.5.

Musk sapeva che se aspettava ancora, prima o poi OpenAI o Anthropic l’avrebbero anticipato.
Probabilmente il suo obiettivo principale era quello di mandare un messaggio: xAI è sul pezzo ed è al livello degli altri competitor. 🏆
Ecco, questo è quello che volevo raccontarti in questa puntata.
In questi giorni ci sono un sacco di *annunci bomba nel mondo AI*. 💣
E ne abbiamo parlato sui *nostri canali*. 📲
Ti consiglio di darci un’occhiata se vuoi restare aggiornato/a sulle ultime news.
Ti lascio qui i vari link!👇
***
Giacomo Ciarlini - Head of Content & Education - Datapizza
Alexandru Cublesan - Media Manager & Creator - Datapizza
***