10/06/2025Polemiche contro Apple: il nuovo paper sull’AI non convince

Pochi giorni fa, Apple ha rilasciato un paper che ha fatto discutere molto. 👀

La (presunta) scoperta di questo paper è che i modelli di reasoning in realtà non “ragionano” ma probabilmente "fingono” di ragionare.

Ma non è nulla di nuovo che già non si sapesse 😂

E infatti l’interpretazione di molti è stata:

Apple è indietro con l’AI rispetto a laboratori come OpenAI, Google o Anthropic e sta cercando di non finire in secondo piano "criticando" il lavoro degli altri. 🙌

Volevo, però, fare chiarezza sul tema perché in realtà è un po’ più complessa la questione.

Facciamo prima un passo indietro e vediamo il percorso di Apple nel campo AI.

Apple è stata colta “di sorpresa” dall’ondata dell’AI generativa.

Non aveva un team interno dedicato nel 2022 e lo ha costruito “di corsa” nel 2023, cercando di rubare talenti alle altre big tech, con salari e bonus fuori di testa…

Ma non è così semplice…

Per costruire la sua posizione competitiva, OpenAI ha accumulato dati, expertise, ed esperimenti per 5 anni, prima di arrivare ad addestrare modelli come GPT-3.5 o GPT-4 (oggi datati ma all’epoca erano wow).

Apple si è quindi trovata nel classico dilemma del Build vs Buy: è meglio creare i propri modelli di linguaggio, o usare quelli di altri, opportunamente personalizzati?

Un altro momento importante per Apple è stato il rilascio di Apple Intelligence a metà 2024.

Si tratta di un servizio composto da diversi modelli di GenAI integrati direttamente nei sistemi operativi dell’azienda, sulla falsariga di Gemini e Google Assistant su Android.

Se, però, hai provato Apple Intelligence ti sarai accorto che non c’è nulla di particolarmente rivoluzionario…

E questo porta Apple ad oggi, a dover rincorrere gli altri player. 👀

Arriviamo, così, al paper rilasciato pochi giorni fa👇

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”.

Lo studio mette in discussione le capacità di “ragionare” dei modelli reasoning (come o3, Deep Seek-R1 e Gemini Flash Thinking).

In particolare, il risultato evidenziato da Apple è che i Large Reasoning Model (LRM) probabilmente "fingono” soltanto di ragionare.

Faccio al volo un approfondimento tecnico per spiegarti meglio 💡

Cosa vuol dire “reasoning” nell’ambito dei Large Language Model (LLM)?

I LLM, addestrati su enormi dataset testuali, hanno appreso il linguaggio naturale e generano testo predicendo la parola successiva più probabile.

Questa predizione avviene sulla base di tutto il testo a disposizione della chat.

Il modello riconsidera ogni volta tutti i token (una parola, una parte di parola o un simbolo) del prompt e della risposta che sta generando per stabilire il prossimo da generare.

Questo per darsi più “contesto”, capire il senso complessivo delle frasi e determinare in che direzione stabilire il token più probabile.

Ti faccio un esempio.

Nella frase: «Questa è un’ottima [...]», il token atteso è «idea» piuttosto che «carbonara».

Il loro, quindi, è un semplice lavoro di predizione di pezzi di linguaggio e ha un carattere probabilistico e statistico.

Il ragionamento, invece, è un processo logico: serve a trarre conclusioni coerenti partendo da alcune premesse.

E la prima volta che abbiamo sentito di un LLM in grado di ragionare è stato a settembre 2024, quando OpenAI ha rilasciato o1.

Cosa cambia rispetto ai modelli precedenti? 🤔

Il team di ricerca di OpenAI ha riaddestrato GPT-4o a rispondere con la Chain-of-Thought.

Si tratta di un metodo di prompting che consiste nel far rispondere il modello generando più token, dandosi più contesto e simulando i passaggi di un “ragionamento”.

OpenAI ha scoperto che più tempo si dà al modello per “riflettere prima di rispondere”, migliore è l’accuratezza dell’output.

Quindi il reasoning consente ai modelli di linguaggio di performare bene anche su problemi complessi di tipo logico, scientifico e matematico.

Detto ciò, torniamo a noi e vediamo cosa hanno fatto i ricercatori di Apple.

Si sono focalizzati su problemi di ragionamento analitico in cui è possibile mantenere una struttura logica costante, andando a variare la complessità del task (es. la torre di Hanoi).

E hanno tratto tre conclusioni:

1️⃣ Per task molto semplici, spesso i modelli senza ragionamento performano anche meglio di quelli con ragionamento

2️⃣ A complessità crescente, il reasoning effettivamente aiuta il modello a dare risultati, al prezzo di consumare più token

3️⃣ Ad un certo punto, anche se ci sono molti token ancora disponibili, se la complessità aumenta troppo, il modello smette di ragionare e ha un crollo dell'accuratezza.

E secondo alcuni potrebbe essere che il modello si renda conto che il task diventi troppo complesso e "rinunci" a risolverlo.

Questo comportamento contro intuitivo, secondo gli autori, indicherebbe che il modello non stia realmente ragionando.

E fin qui ok.

Diciamo che non è una novità 😅

Che i reasoning models non ragionino veramente non è una scoperta sconvolgente.

È sostanzialmente l’assunzione di partenza.

E qui si aprono due scuole di pensiero tra i ricercatori:

📌 Chi dice che questi modelli fanno solo predizione di token (quindi non ragionamento, ma solo una simulazione verbale del ragionamento umano).

📌 Chi dice che quello degli LRM è un modo computazionaledi ragionare: un comportamento di alto livello simile al ragionamento umano che può essere (convenzionalmente) definito “ragionamento”.

Il punto è che, a prescindere da quanto il comportamento degli LRM sia considerabile reasoning o meno, funziona.

Funziona perché gli output sono più accurati e perché, a un livello di complessità dei task crescente, è indistinguibile dal ragionamento umano e produce risultati significativi.

Quindi la questione è dibattuta e molti punti di vista sono sensati.

E ci sta ragionarci sopra e confrontarsi sul tema.

Ma diciamo che lo studio ha fatto discutere perché, ad oggi, i risultati non hanno un impatto rilevante ed è stata vista più come una mossa d’immagine da parte dell’azienda.

In tutto ciò, in questi giorni si è tenuto anche l'Apple WorldWide Developers Conference (WWDC), il keynote in cui Apple annuncia novità sui propri prodotti.

E diciamo che questo non migliora la situazione 😅

Gli aggiornamenti di Apple Intelligence non hanno performance avanzate o feature che non si sono già viste.

Tra gli annunci, ci sono state cose tipo la possibilità di combinare due emoji per crearne una nuova

Tipo una lampadina e un bradipo!

Insomma, Apple è indietro sullo sviluppo dell'AI rispetto alle altre Big Tech.

E il rilascio di questo paper è stato interpretato come uno screditare le stesse tecnologie sviluppate da altre aziende quando, in realtà, Apple sta perdendo questa corsa (per il momento).


Giacomo Ciarlini - Head of Content & Education - Datapizza

Alexandru Cublesan - Media Manager & Creator - Datapizza