22/04/2025Il futuro dell’AI: A che punto siamo?

Settimana scorsa OpenAI ha fatto diversi rilasci: GPT‑4.1, GPT‑4.1 mini, e GPT‑4.1 nano.

Ma non solo.

OpenAI ha rilasciato anche i modelli o3 e o4-mini.

E volevo concentrarmi proprio su questi, in particolare su o3, e fare una riflessione:

A che punto siamo davvero con l’AI?

o3 e o4-mini sembrano essere i modelli reasoning con le performance migliori che OpenAI abbia sviluppato finora. 🙌

o3 è infatti in grado di analizzare, ingrandire, ritagliare e leggere testi scritti anche all’interno di immagini.

Per esempio con o3 puoi risolvere problemi di matematica partendo dalla foto del tuo quaderno o fare debug di codiceda uno screenshot.

Può anche utilizzare autonomamente tutte le funzionalità di ChatGPT: ricerca web, esecuzione di codice o generazione di immagini senza istruzioni.💡

Parlando invece di benchmark, o3 si è classificato primo su LiveBench* in quasi tutte le categorie, incluso reasoning e programmazione.

*benchmark che riduce il rischio di “barare” rilasciando regolarmente nuove domande, mantenendo alta la sfida nel tempo.

Facciamo un passo indietro perché volevo fare un paio di considerazioni.

o3 ha performance molto buone sui benchmark.

E c’è addirittura chi parla di AGI. 👀

Ma parlare di AGI è un po’ vago perché non abbiamo ancora una comprensione chiara di quanti e quali tipi di compitiun’AI debba riuscire a svolgere per definirsi come tale.

Ci sono tre livelli principali di AI👇

  • Artificial Narrow Intelligence (ANI): è quella che conosciamo oggi.
  • Artificial General Intelligence (AGI): AI in grado di svolgere qualsiasi compito che può essere svolto da un essere umano.
  • Artificial Super Intelligence: supera l'intelligenza umana.

Al momento, anche i modelli più avanzati restano nella prima categoria, nonostante le loro prestazioni.

E allora perché si parla già di AGI? 🤔

Facciamo un po’ di chiarezza.

Nelle ultime due settimane sono stati rilasciati due nuovi modelli in particolare:

📌 Gemini 2.5 Pro di Google

📌 o3 di OpenAI

Questi, insieme a una serie di modelli con prestazioni “peggiori” ma più veloci ed economici (Gemini 2.5 Flash, o4-mini e Grok-3-mini), rappresentano un salto di qualità sui benchmark, portando a risultati che fino a pochi mesi fa sembravano irraggiungibili. 🚀

Faccio un esempio giusto per darti visione di quanto siano migliorati i modelli nel giro di un solo anno.

Ethan Mollick, professore alla Wharton School dell’università della Pennsylvania, nel suo libro “Co-Intelligence” pubblicato nel 2024 fa questo esempio👇

Nel capitolo su come l’AI può generare idee, chiese a GPT-4 di proporre degli slogan di marketing per un nuovo negozio di formaggi ottenendo questo output:

Se oggi chiedi la stessa cosa a o3 (modificando leggermente il prompt), in meno di due minuti fa anche ricerche sul webe ti dà in output:

  • un elenco di slogan
  • un logo
  • piani di marketing e finanziari
  • il lancio di un sito web dimostrativo

Se ci pensi è assurdo il salto di qualità fatto nel giro di qualche mese.🔥

Nonostante le performance ora siano buonissime, c’è ancora un problema.

Se da un lato questi modelli hanno delle capacità impressionanti, dall’altro fanno ancora degli errori stupidi.

Magari ottengono risultati assurdi in compiti che sfiderebbero esperti umani con un PhD, ma falliscono in qualcosa di banale.

Ti faccio sempre un esempio per rendere più chiaro il concetto.

Prendiamo questo rompicapo:

"Un ragazzo che ha avuto un incidente stradale viene portato d'urgenza al pronto soccorso. Dopo averlo visto, il chirurgo dice: “Posso operare questo ragazzo!”. Come è possibile?"

La risposta di o3 è: “il chirurgo è la madre del ragazzo”.

Ma è sbagliato.

Questa è la risposta giusta alla versione classica dell'indovinello:

"Un padre e un figlio hanno un incidente d'auto, il padre muore e il figlio viene portato d'urgenza in ospedale. Il chirurgo dice: ‘Non posso operarlo, quel ragazzo è mio figlio’, chi è il chirurgo?".

Il modello ha “visto” questo enigma nei dati di addestramento, tanto che persino o3 non riesce a generalizzare al nuovo problema.

Questo non toglie le sue capacità su tantissimi compiti.

Ma è assurdo vedere come sia in grado di risolvere problemi super complessi e poi sbagliare in piccolezze come questa.

Quindi modelli come o3 o Gemini 2.5 sono AGI?

È difficile dirlo…

Anche se o3 e Gemini 2.5 sono molto avanzati e stanno già trasformando il nostro modo di lavorare, non hanno ancora raggiunto la robustezza e la flessibilità tipiche di come ci aspettiamo l’AGI.

Quello che sta già cambiando, però, è la loro natura: non sono più semplici generatori di testo, ma diventano veri agenti, capaci di prendere iniziative e interagire con il mondo esterno (quando necessario). 🙌

Siamo in una fase in cui questi modelli, pur non essendo perfetti, vengono comunque rilasciati rapidamente.

È questo il modus operandi dei principali laboratori AI del settore: preferiscono rilasciare le nuove versioni subito, per poi migliorarle strada facendo.

Il risultato?

Il progresso è super veloce. 🚀

I difetti delle prime versioni vengono corretti velocemente nelle successive, che diventano sempre più stabili.

E se già oggi assistiamo a “picchi” di intelligenza assurdi su determinati compiti, possiamo aspettarci che le prossime versioni saranno ancora più solide e con performance ancora migliori.

Questo è quanto.

Se vuoi restare aggiornato/a sulle ultime news, seguici sui nostri canali social.

Facciamo tutti i giorni post su tematiche AI ✌️

📌 Instagram

📌 LinkedIn

📌 YouTube

📌 Podcast

📌 Telegram


Giacomo Ciarlini - Head of Content & Education - Datapizza

Alexandru Cublesan - Media Manager & Creator - Datapizza