Grok-3 è qua: è un competitor rilevante?

xAI, azienda che sviluppa modelli AI lanciata da Elon Musk, ha rilasciato la *famiglia di modelli Grok-3*.💡

A detta di Musk, questa sarebbe *l’AI più intelligente al mondo*. 👀

*Tu lo sapevi?*

Te lo chiedo anche perché ho avuto come l’impressione che non ci sia stato particolare entusiasmo. 😅

Come magari è stato con l’annuncio di o1 o o3 di OpenAI.

Elon Musk è un personaggio…ormai lo conosciamo.

E siamo abituati a leggere i suoi post su X che (spesso) sono *molto gonfiati*. 😂

Qui volevo fare un appunto.

È interessante secondo me anche notare come i vari player comunicano il rilascio dei modelli.

Se ti ricordi, DeepSeek aveva rilasciato dei modelli bomba senza alcun preavviso 😂

OpenAI invece tende a non alzare le aspettative in anticipo.

Mentre Elon Musk aveva già definito i suoi modelli come *i migliori* ancora prima dell’annuncio.

Ma quindi…

*Veramente Musk ha rilasciato l’AI più intelligente al mondo?* 🌍

Vediamo meglio👇

L’annuncio dei nuovi modelli Grok è stato fatto con una live lunedì sera scorso su X. 🎥

(Annunciare i nuovi modelli con delle live è diventato un po’ uno standard.) 😄

I nuovi modelli sono:

📌 Grok-3

📌 Grok-3 mini

📌 Grok-3 Reasoning Beta

📌 Grok-3 mini Reasoning

Sembra che i modelli di xAI siano *i migliori modelli disponibili oggi* (dai benchmark).

Ma le aziende che sviluppano modelli AI, spesso tendono a mettere in mostra i benchmark su cui i loro modelli hanno performance migliori.

E fin qui ok 😂

Infatti puoi vedere che su tutti i benchmark più comuni come:

AIME per domande di matematica
GPQA per domande di scienze
LCB per il Coding

I modelli Grok superano (o pareggiano) gli altri.

Qui puoi vedere anche i modelli Grok di reasoning messi a confronto con altri modelli di reasoning.

Noti una cosa? 👀

Hanno omesso o3 dai grafici nella live…

E forse per questo motivo 😂👇

Anche su ChatBotArena i modelli Grok superano gli altri, posizionandosi al primo posto.

Secondo Karpathy (che io stimo tantissimo), i modelli Grok hanno delle performance che tutto sommato sono alla pari delle capacità di o1-pro e migliori di DeepSeek-R1.

Ma anticipa che servono altre valutazioni per fare *affermazioni forti*. 🙌

Ma c’è un problema.

Questi benchmark non funzionano più.

O per lo meno non funzionano più bene come un anno fa. ⌛️

I modelli stanno migliorando così velocemente che i benchmark sono saturi.

Quando un modello ottiene ottime performance su un benchmark si dice che quel *benchmark è saturo*. 🚨

Il che significa che non è più uno strumento utile a dimostrare le capacità di un modello perché ormai tutti i modelli ottengono punteggi molto alti.

Il 2024 è stato l’anno in cui i *benchmark sono diventati sempre più saturi*. 🗓️

Siamo sempre stati abituati a vedere i modelli testati sui benchmark indicati sopra (fisica, biologia e chimica).

Questi benchmark sono molto difficili e nemmeno esperti con un PhD nel rispettivo settore riescono ad ottenere un punteggio più alto del 70%. 📉

Ma ora i modelli hanno performance migliori degli umani. Quindi non è più un buon metodo per misurare il progresso.

Quasi sicuramente le aziende che sviluppano modelli hanno altri metodi per valutare internamente le performance effettive. 🔍

Che però difficilmente condividono perché i loro modelli *devono risultare i migliori*.

Se aumentassimo la trasparenza riusciremmo anche a capire quali altri benchmark si potrebbero implementare per nuove e future valutazioni.

Una cosa è certa, servono nuovi benchmark. ✅

*Ma quindi…i modelli Grok sono i più intelligente al mondo?*

Sui benchmark sì.

Nel concreto è presto per dirlo. Da un primo utilizzo sembrerebbe di no. 🙌

*Volevo condividerti un’ultima riflessione.*

Elon Musk probabilmente è consapevole che i suoi modelli non sono effettivamente i migliori al momento.

Ma ha voluto fare questa mossa per un motivo.

Voleva raggiungere le migliori posizioni sui benchmark e poter dire che (*sulla carta*) ha l’AI più intelligente al mondo. 💪

E voleva farlo prima del rilascio di modelli come o3 o GPT-4.5.

Musk sapeva che se aspettava ancora, prima o poi OpenAI o Anthropic l’avrebbero anticipato.

Probabilmente il suo obiettivo principale era quello di mandare un messaggio: xAI è sul pezzo ed è al livello degli altri competitor. 🏆

Ecco, questo è quello che volevo raccontarti in questa puntata.

In questi giorni ci sono un sacco di *annunci bomba nel mondo AI*. 💣

E ne abbiamo parlato sui *nostri canali*. 📲

Ti consiglio di darci un’occhiata se vuoi restare aggiornato/a sulle ultime news.

Ti lascio qui i vari link!👇

***

Giacomo Ciarlini - Head of Content & Education - Datapizza

Alexandru Cublesan - Media Manager & Creator - Datapizza

***