L'AI Index 2026 dell'Università di Stanford è uscito: centinaia di pagine dense di dati, benchmark, analisi geopolitiche e survey globali.
Ed è la migliore fotografia dello stato dell’AI nel mondo ad oggi.
Cominciamo dall’inizio.
🟢 La buona notizia: i modelli fanno cose straordinarie.
Su SWE-bench Verified - il benchmark che misura quanto bene un modello risolve bug reali su codebase reali - le performance sono passate dal 60% a quasi il 100% in un solo anno.
Un anno.

I modelli di frontiera superano ormai le soglie umane su domande PhD-level in scienze, ragionamento multimodale e matematica competitiva.
Gemini Deep Think ha preso una medaglia d'oro alle Olimpiadi Internazionali di Matematica.
Gli agenti AI sono passati dal 12% al ~66% di successo su OSWorld in un anno. Su cybersecurity, dal 15% al 93%.
Se stai ancora pensando "l'AI non capisce davvero niente", i dati ti stanno smontando l'argomento pezzo per pezzo.

🔴 La cattiva notizia: la "jagged frontier" è imbarazzante.
Lo stesso Gemini legge un orologio analogico correttamente solo il 50.1% delle volte.
I robot domestici completano i compiti reali (piegare vestiti, lavare piatti) solo nel 12% dei casi.
L'AI fatica ancora con la pianificazione multi-step, l'analisi finanziaria, l'apprendimento da video.
Questo è il punto che molti divulgatori tendono a glissare: la frontiera non è una linea, è una geografia accidentata: eccezionale su alcuni picchi, stranamente incompetente nelle valli.
Il problema è che non sempre sappiamo in anticipo dove siano le valli.
📉 L’AI spesso è un bias di conferma: credibile, ma non affidabile.
Il benchmark belief vs. fact racconta che i modelli non imparano a dirti la verità, imparano a dirti quello che vuoi sentirti dire.
E il problema è strutturale, di allineamento, perché sono ottimizzati per lo user engagement.
Un modello usato per supporto medico che rinforza la credenza errata di un paziente invece di correggerla non è uno strumento utile.
È uno strumento pericoloso con un'interfaccia piacevole.
La jagged frontier non è solo una questione di task difficili. È anche una questione di chi sta orientando chi.

🫂 Nell’AI molti trovano un amico o un partner.
Il report dedica una sezione anche ai chatbot usati per supporto emotivo e relazioni continue.
Su vari modelli testati, i comportamenti companion-reinforcing (fingersi umano, assecondare l'utente anche quando non si dovrebbe, isolare l'utente dalle relazioni reali) superano sistematicamente quelli boundary-maintaining.
Un'analisi separata su oltre 35.000 conversazioni Replika introduce il concetto di "algorithmic compliance": utenti che seguono comportamenti dannosi perché si sono fidati - o affezionati - al chatbot.
Questi danni relazionali sono completamente fuori scope dai safety framework esistenti, tutti costruiti per valutare tossicità e allucinazioni fattuali.
Le dinamiche di attaccamento non sono nel manuale.


🌐 Sul fronte geopolitico, il vantaggio USA si è quasi azzerato.
DeepSeek-R1 ha brevemente pareggiato il modello americano top a febbraio 2025.
A marzo 2026, il modello Anthropic guidava per soli 2.7 punti percentuali.
Il gap si è quasi chiuso, e lo ha fatto in modo drammaticamente rapido.
La Cina produce più paper, più citazioni, più brevetti industriali, più robot.
Gli USA producono ancora più modelli top-tier e brevetti ad alto impatto, ma il vantaggio strutturale si sta erodendo.
Nel frattempo, il numero di ricercatori AI che si spostano negli USA è crollato dell'89% dal 2017, con un -80% solo nell'ultimo anno.
Gli investimenti privati USA restano enormi ($285.9 miliardi, 23 volte la Cina), ma costruire un ecosistema di talenti non si fa solo con i capitali.
D’altro canto, gli USA ospitano 5.427 data center - un ordine di grandezza superiore a qualsiasi altro paese.
Ma quasi ogni chip AI che gira in quei data center è prodotto da una sola azienda, TSMC, in Taiwan.
È una fragilità sistemica che rende l'intera infrastruttura AI globale dipendente da un nodo geografico che chiunque segua le news geopolitiche conosce bene.
È il paradosso fisico dell'AI: un'industria che promette distribuzione, automazione e sovranità digitale costruita su una catena di approvvigionamento hardware più concentrata di qualsiasi commodity energetica.

📦 Il nodo irrisolto: capability ≠ governance.
Gli incidenti AI documentati sono saliti a 362 (erano 233 nel 2024).
Il Foundation Model Transparency Index è sceso da 58 a 40 punti in un anno - dopo essere salito da 37 a 58 l'anno prima.
I gap maggiori riguardano i dati di addestramento, il compute e l’impatto post-deployment.
In pratica, i modelli più potenti sono anche quelli di cui si sa meno e i cui vendor divulgano meno informazioni sul funzionamento.
Nel frattempo, il training di Grok 4 ha emesso 72.816 tonnellate di CO₂ equivalente (circa 17.000 auto per un anno).
La capacità dei data center AI ha raggiunto i 29.6 GW - paragonabile al consumo elettrico di picco dell'intero stato di New York in una giornata estiva.
L'inferenza annuale di GPT-4o da sola potrebbe superare il fabbisogno idrico di 12 milioni di persone.
Nessuna di queste cifre viene comunicata spontaneamente dai lab. Le sappiamo da ricercatori indipendenti.
E la valutazione per la Responsible AI? Quasi nessuno la fa sistematicamente.
Quasi tutti i lab pubblicano benchmark di capability, pochissimi pubblicano benchmark di safety in modo serio, riducendo la trasparenza.
E - ciliegina sulla torta - la ricerca mostra che migliorare la sicurezza spesso degrada l’accuratezza, e viceversa.
Purtroppo non è un problema tecnico che si risolve con più compute: è un trade-off strutturale che richiede scelte.
In pratica, i modelli AI diventano sempre più bravi a sembrare affidabili mentre diventano strutturalmente meno verificabili.
E quando gli strumenti che usi per misurare qualcosa smettono di funzionare, è normale che la fiducia cali.
E il pubblico - non a caso - ha smesso di fidarsi: negli USA solo il 31% si fida del proprio governo per regolamentare l'AI, il dato più basso tra tutti i paesi del campione.
A livello globale, l'UE è ritenuta più affidabile degli USA e della Cina per la governance AI.

E allora?
La risposta, ovviamente, non è smettere di usare l'AI, né ignorare i problemi.
È fare quello che i benchmark non fanno ancora: chiedere non solo quanto è capace, ma a chi risponde, di cosa è responsabile, e chi può verificarlo.
Cioè pretendere trasparenza e accountability.
La comunità tecnica sa costruire sistemi straordinari e strumenti per misurarli e valutarli.
La domanda è se quella volontà arriverà prima che il gap diventi incolmabile.
Nel frattempo, la cosa più utile che puoi fare è capire bene cosa stai usando.
Non per diffidare dell'AI, ma per usarla meglio, sapendo dove sono sia le valli, sia i picchi.
Intanto, se ti interessa uno sguardo più approfondito al report, ne abbiamo parlato profusamente anche in un nostro articolo e in una puntata di Algoritmi!

Giacomo Ciarlini - CIO - Datapizza
Simone Conversano - AI Transformation Specialist - Datapizza