24/02/2025Grok-3 è qua: è un competitor rilevante?

xAI, azienda che sviluppa modelli AI lanciata da Elon Musk, ha rilasciato la famiglia di modelli Grok-3.💡

A detta di Musk, questa sarebbe l’AI più intelligente al mondo. 👀

Tu lo sapevi?

Te lo chiedo anche perché ho avuto come l’impressione che non ci sia stato particolare entusiasmo. 😅

Come magari è stato con l’annuncio di o1 o o3 di OpenAI.

Elon Musk è un personaggio…ormai lo conosciamo.

E siamo abituati a leggere i suoi post su X che (spesso) sono molto gonfiati. 😂

Qui volevo fare un appunto.

È interessante secondo me anche notare come i vari player comunicano il rilascio dei modelli.

Se ti ricordi, DeepSeek aveva rilasciato dei modelli bomba senza alcun preavviso 😂

OpenAI invece tende a non alzare le aspettative in anticipo.

Mentre Elon Musk aveva già definito i suoi modelli come i migliori ancora prima dell’annuncio.

Ma quindi…

Veramente Musk ha rilasciato l’AI più intelligente al mondo? 🌍

Vediamo meglio👇

L’annuncio dei nuovi modelli Grok è stato fatto con una live lunedì sera scorso su X. 🎥

(Annunciare i nuovi modelli con delle live è diventato un po’ uno standard.) 😄

I nuovi modelli sono:

📌 Grok-3

📌 Grok-3 mini

📌 Grok-3 Reasoning Beta

📌 Grok-3 mini Reasoning

Sembra che i modelli di xAI siano i migliori modelli disponibili oggi (dai benchmark).

Ma le aziende che sviluppano modelli AI, spesso tendono a mettere in mostra i benchmark su cui i loro modelli hanno performance migliori.

E fin qui ok 😂

Infatti puoi vedere che su tutti i benchmark più comuni come:

  • AIME per domande di matematica
  • GPQA per domande di scienze
  • LCB per il Coding

I modelli Grok superano (o pareggiano) gli altri.

Qui puoi vedere anche i modelli Grok di reasoning messi a confronto con altri modelli di reasoning.

Noti una cosa? 👀

Hanno omesso o3 dai grafici nella live…

E forse per questo motivo 😂👇

Anche su ChatBotArena i modelli Grok superano gli altri, posizionandosi al primo posto. 

Secondo Karpathy (che io stimo tantissimo), i modelli Grok hanno delle performance che tutto sommato sono alla pari delle capacità di o1-pro e migliori di DeepSeek-R1.

Ma anticipa che servono altre valutazioni per fare affermazioni forti. 🙌

Ma c’è un problema.

Questi benchmark non funzionano più.

O per lo meno non funzionano più bene come un anno fa. ⌛️

I modelli stanno migliorando così velocemente che i benchmark sono saturi.

Quando un modello ottiene ottime performance su un benchmark si dice che quel benchmark è saturo. 🚨

Il che significa che non è più uno strumento utile a dimostrare le capacità di un modello perché ormai tutti i modelli ottengono punteggi molto alti.

Il 2024 è stato l’anno in cui i benchmark sono diventati sempre più saturi. 🗓️

Siamo sempre stati abituati a vedere i modelli testati sui benchmark indicati sopra (fisica, biologia e chimica).

Questi benchmark sono molto difficili e nemmeno esperti con un PhD nel rispettivo settore riescono ad ottenere un punteggio più alto del 70%. 📉

Ma ora i modelli hanno performance migliori degli umani. Quindi non è più un buon metodo per misurare il progresso.

Quasi sicuramente le aziende che sviluppano modelli hanno altri metodi per valutare internamente le performance effettive. 🔍

Che però difficilmente condividono perché i loro modelli devono risultare i migliori.

Se aumentassimo la trasparenza riusciremmo anche a capire quali altri benchmark si potrebbero implementare per nuove e future valutazioni.

Una cosa è certa, servono nuovi benchmark. ✅

Ma quindi…i modelli Grok sono i più intelligente al mondo?

Sui benchmark sì.

Nel concreto è presto per dirlo. Da un primo utilizzo sembrerebbe di no. 🙌

Volevo condividerti un’ultima riflessione.

Elon Musk probabilmente è consapevole che i suoi modelli non sono effettivamente i migliori al momento.

Ma ha voluto fare questa mossa per un motivo.

Voleva raggiungere le migliori posizioni sui benchmark e poter dire che (sulla carta) ha l’AI più intelligente al mondo. 💪

E voleva farlo prima del rilascio di modelli come o3 o GPT-4.5.

Musk sapeva che se aspettava ancora, prima o poi OpenAI o Anthropic l’avrebbero anticipato.

Probabilmente il suo obiettivo principale era quello di mandare un messaggio: xAI è sul pezzo ed è al livello degli altri competitor. 🏆

Ecco, questo è quello che volevo raccontarti in questa puntata.

In questi giorni ci sono un sacco di annunci bomba nel mondo AI. 💣

E ne abbiamo parlato sui nostri canali. 📲

Ti consiglio di darci un’occhiata se vuoi restare aggiornato/a sulle ultime news.

Ti lascio qui i vari link!👇

Instagram

LinkedIn

YouTube

Podcast

Telegram


Giacomo Ciarlini - Head of Content & Education - Datapizza

Alexandru Cublesan - Media Manager & Creator - Datapizza


Utilizziamo i cookies

Utilizziamo i cookies al fine di raccogliere ed utilizzare dati come dichiarato nell’informativa sulla privacy.

Cliccando su "Accetta", aderisci all'utilizzo dei nostri cookies.
Scopri di più