Sonnet 3.7 e GPT-4.5: ci piacciono?

Settimana scorsa Anthropic ha rilasciato Claude 3.7 Sonnet, che è il loro modello attualmente più potente. 💪.

Ma andiamo in ordine.

Era da un po’ che non si parlava di Anthropic. O per lo meno di rilasci di modelli di Anthropic.

In realtà Dario Amodei, CEO e founder dell’azienda, ha un blog super interessante in cui fa spesso riflessioni sull’AI che meritano molto. Ti lascio qui il link. 📚

Per la prima volta entra nel mondo del reasoning anche Anthropic.

Ma lo fa in modo diverso…

Seguimi nel ragionamento👇

Quando devi risolvere un problema, decidi tu quanto pensare a seconda della complessità.

Ora, Claude 3.7 Sonnet è in grado di fare lo stesso grazie alla nuova modalità Hybrid Thinking. 🚀

Negli ultimi mesi sono stati rilasciati diversi modelli che “ragionano” prima di rispondere (o1, DeepSeek-R1 etc…).

Ma i modelli che “ragionano” e “che non ragionano” erano due famiglie separate.

Sonnet 3.7 è un modello “ibrido”: sia un modello standard che un modello di reasoning.💡

La modalità di reasoning di Claude si chiama “extended thinking mode”.

Grazie a questa modalità, Claude migliora le performance in matematica, fisica, nella programmazione e in molti altri compiti.🔥

Per utilizzare la modalità non è necessario cambiare modello.

Quando fai una domanda, il modello è lo stesso, ma si prende più tempo prima di rispondere in caso di domande complesse.

Ah e un’altra novità bomba è che gli sviluppatori che utilizzano Claude tramite API, possono impostare un "tempo massimo di riflessione" e bilanciare:

Velocità, Precisione e Costi computazionali 💣

Ti lascio alcuni numeri👇

Il modello 3.7 Sonnet ha raggiunto lo stato dell'arte su vari benchmark, soprattutto legati a task del mondo reale come il Coding e Software Engineering.

Ma c’è un nuovo benchmark molto interessante 😂

Sonnet 3.7 è in grado di giocare a Pokémon Rosso e Blu…

Magari un giorno potrebbe essere un nuovo benchmark effettivo 👀 (scherzo…forse)

Anche se sicuramente sarà necessario sviluppare nuovi benchmark.

Come ti dicevo nella puntata precedente di Commit, i benchmark ormai sono saturi.

Quando un modello ottiene ottime performance su un benchmark si dice che quel benchmark è saturo. 🚨

Il che significa che non è più utile a dimostrare le capacità di un modello perché ormai tutti i modelli ottengono punteggi molto alti su quel benchmark.

Ok, arriviamo a OpenAI…che ha rilasciato GPT-4.5! 🙌

Ecco le principali novità👇

📌 Performance migliorate in attività come la scrittura e la programmazione

📌 Tasso di allucinazioni del 37.1% (rispetto al 61.8% di GPT-4o)

📌 Tasso di affidabilità del 62.5%

Ma c’è un piccolo problema.

I costi sono assurdi:

👉 l'API costa $75 per milione di token in input e $150 per milione in output... 30 volte di più in input e 15 volte di più in output rispetto a GPT-4o 💸

Ah e ieri vedevo questo meme su X e mi ha fatto molto ridere, te lo volevo condividere 😂

Ok, voglio fare un paio di riflessioni prima di chiudere.

L’Extended Thinking Mode non è solo una novità di Anthropic.

O per lo meno lo è per adesso.

Ma ci indica una direzione precisa verso cui si stanno muovendo le Big Tech:

👉 focalizzarsi su un unico modello: è sempre più chiaro che la strategia futura sarà avere pochi modelli unificati da usare in tanti contesti diversi (anche GPT-5 dovrebbe essere così).

Per quanto riguarda Sonnet 3.7 io l’ho testato nel weekend e posso dirti che:

Se devi analizzare dei testi lunghi, usa Claude.
Se devi programmare, usa Claude.
Di base, se Claude può farlo, usa Claude 😂 (scherzo).
Se ti serve il reasoning più deep usa o1-pro.
Se devi analizzare molte informazioni in una volta, usa Deep Research.
Se ti serve un mix tra la ricerca web e il reasoning usa o3-mini-high.

Alla fine se ci pensi, ormai tutti i modelli hanno delle capacità assurde e tutti possono servirti in base all’utilizzo che ne fai.

Giacomo Ciarlini - Head of Content & Education - Datapizza

Alexandru Cublesan - Media Manager & Creator - Datapizza

03/03/2025Sonnet 3.7 e GPT-4.5: ci piacciono?

Utilizziamo i cookies