xAI, azienda che sviluppa modelli AI lanciata da Elon Musk, ha rilasciato la famiglia di modelli Grok-3.💡
A detta di Musk, questa sarebbe l’AI più intelligente al mondo. 👀
Tu lo sapevi?
Te lo chiedo anche perché ho avuto come l’impressione che non ci sia stato particolare entusiasmo. 😅
Come magari è stato con l’annuncio di o1 o o3 di OpenAI.
Elon Musk è un personaggio…ormai lo conosciamo.
E siamo abituati a leggere i suoi post su X che (spesso) sono molto gonfiati. 😂
Qui volevo fare un appunto.
È interessante secondo me anche notare come i vari player comunicano il rilascio dei modelli.
Se ti ricordi, DeepSeek aveva rilasciato dei modelli bomba senza alcun preavviso 😂
OpenAI invece tende a non alzare le aspettative in anticipo.
Mentre Elon Musk aveva già definito i suoi modelli come i migliori ancora prima dell’annuncio.
Ma quindi…
Veramente Musk ha rilasciato l’AI più intelligente al mondo? 🌍
Vediamo meglio👇
L’annuncio dei nuovi modelli Grok è stato fatto con una live lunedì sera scorso su X. 🎥
(Annunciare i nuovi modelli con delle live è diventato un po’ uno standard.) 😄
I nuovi modelli sono:
📌 Grok-3
📌 Grok-3 mini
📌 Grok-3 Reasoning Beta
📌 Grok-3 mini Reasoning
Sembra che i modelli di xAI siano i migliori modelli disponibili oggi (dai benchmark).
Ma le aziende che sviluppano modelli AI, spesso tendono a mettere in mostra i benchmark su cui i loro modelli hanno performance migliori.
E fin qui ok 😂
Infatti puoi vedere che su tutti i benchmark più comuni come:
I modelli Grok superano (o pareggiano) gli altri.
Qui puoi vedere anche i modelli Grok di reasoning messi a confronto con altri modelli di reasoning.
Noti una cosa? 👀
Hanno omesso o3 dai grafici nella live…
E forse per questo motivo 😂👇
Anche su ChatBotArena i modelli Grok superano gli altri, posizionandosi al primo posto.
Secondo Karpathy (che io stimo tantissimo), i modelli Grok hanno delle performance che tutto sommato sono alla pari delle capacità di o1-pro e migliori di DeepSeek-R1.
Ma anticipa che servono altre valutazioni per fare affermazioni forti. 🙌
Ma c’è un problema.
Questi benchmark non funzionano più.
O per lo meno non funzionano più bene come un anno fa. ⌛️
I modelli stanno migliorando così velocemente che i benchmark sono saturi.
Quando un modello ottiene ottime performance su un benchmark si dice che quel benchmark è saturo. 🚨
Il che significa che non è più uno strumento utile a dimostrare le capacità di un modello perché ormai tutti i modelli ottengono punteggi molto alti.
Il 2024 è stato l’anno in cui i benchmark sono diventati sempre più saturi. 🗓️
Siamo sempre stati abituati a vedere i modelli testati sui benchmark indicati sopra (fisica, biologia e chimica).
Questi benchmark sono molto difficili e nemmeno esperti con un PhD nel rispettivo settore riescono ad ottenere un punteggio più alto del 70%. 📉
Ma ora i modelli hanno performance migliori degli umani. Quindi non è più un buon metodo per misurare il progresso.
Quasi sicuramente le aziende che sviluppano modelli hanno altri metodi per valutare internamente le performance effettive. 🔍
Che però difficilmente condividono perché i loro modelli devono risultare i migliori.
Se aumentassimo la trasparenza riusciremmo anche a capire quali altri benchmark si potrebbero implementare per nuove e future valutazioni.
Una cosa è certa, servono nuovi benchmark. ✅
Ma quindi…i modelli Grok sono i più intelligente al mondo?
Sui benchmark sì.
Nel concreto è presto per dirlo. Da un primo utilizzo sembrerebbe di no. 🙌
Volevo condividerti un’ultima riflessione.
Elon Musk probabilmente è consapevole che i suoi modelli non sono effettivamente i migliori al momento.
Ma ha voluto fare questa mossa per un motivo.
Voleva raggiungere le migliori posizioni sui benchmark e poter dire che (sulla carta) ha l’AI più intelligente al mondo. 💪
E voleva farlo prima del rilascio di modelli come o3 o GPT-4.5.
Musk sapeva che se aspettava ancora, prima o poi OpenAI o Anthropic l’avrebbero anticipato.
Probabilmente il suo obiettivo principale era quello di mandare un messaggio: xAI è sul pezzo ed è al livello degli altri competitor. 🏆
Ecco, questo è quello che volevo raccontarti in questa puntata.
In questi giorni ci sono un sacco di annunci bomba nel mondo AI. 💣
E ne abbiamo parlato sui nostri canali. 📲
Ti consiglio di darci un’occhiata se vuoi restare aggiornato/a sulle ultime news.
Ti lascio qui i vari link!👇
Giacomo Ciarlini - Head of Content & Education - Datapizza
Alexandru Cublesan - Media Manager & Creator - Datapizza
Utilizziamo i cookies al fine di raccogliere ed utilizzare dati come dichiarato nell’informativa sulla privacy.
Cliccando su "Accetta", aderisci all'utilizzo dei nostri cookies.
Scopri di più