Settimana scorsa Anthropic ha rilasciato Claude 3.7 Sonnet, che è il loro modello attualmente più potente. 💪.
Anche OpenAI ha rilasciato GPT-4.5.
Ma andiamo in ordine.
Era da un po’ che non si parlava di Anthropic. O per lo meno di rilasci di modelli di Anthropic.
In realtà Dario Amodei, CEO e founder dell’azienda, ha un blog super interessante in cui fa spesso riflessioni sull’AI che meritano molto. Ti lascio qui il link. 📚
Per la prima volta entra nel mondo del reasoning anche Anthropic.
Ma lo fa in modo diverso…
Seguimi nel ragionamento👇
Quando devi risolvere un problema, decidi tu quanto pensare a seconda della complessità.
Ora, Claude 3.7 Sonnet è in grado di fare lo stesso grazie alla nuova modalità Hybrid Thinking. 🚀
Negli ultimi mesi sono stati rilasciati diversi modelli che “ragionano” prima di rispondere (o1, DeepSeek-R1 etc…).
Ma i modelli che “ragionano” e “che non ragionano” erano due famiglie separate.
Sonnet 3.7 è un modello “ibrido”: sia un modello standard che un modello di reasoning.💡
La modalità di reasoning di Claude si chiama “extended thinking mode”.
Grazie a questa modalità, Claude migliora le performance in matematica, fisica, nella programmazione e in molti altri compiti.🔥
Per utilizzare la modalità non è necessario cambiare modello.
Quando fai una domanda, il modello è lo stesso, ma si prende più tempo prima di rispondere in caso di domande complesse.
Ah e un’altra novità bomba è che gli sviluppatori che utilizzano Claude tramite API, possono impostare un "tempo massimo di riflessione" e bilanciare:
Velocità, Precisione e Costi computazionali 💣
Ti lascio alcuni numeri👇
Il modello 3.7 Sonnet ha raggiunto lo stato dell'arte su vari benchmark, soprattutto legati a task del mondo reale come il Coding e Software Engineering.
Ma c’è un nuovo benchmark molto interessante 😂
Sonnet 3.7 è in grado di giocare a Pokémon Rosso e Blu…
Magari un giorno potrebbe essere un nuovo benchmark effettivo 👀 (scherzo…forse)
Anche se sicuramente sarà necessario sviluppare nuovi benchmark.
Come ti dicevo nella puntata precedente di Commit, i benchmark ormai sono saturi.
Quando un modello ottiene ottime performance su un benchmark si dice che quel benchmark è saturo. 🚨
Il che significa che non è più utile a dimostrare le capacità di un modello perché ormai tutti i modelli ottengono punteggi molto alti su quel benchmark.
Ok, arriviamo a OpenAI…che ha rilasciato GPT-4.5! 🙌
Ecco le principali novità👇
📌 Performance migliorate in attività come la scrittura e la programmazione
📌 Tasso di allucinazioni del 37.1% (rispetto al 61.8% di GPT-4o)
📌 Tasso di affidabilità del 62.5%
Ma c’è un piccolo problema.
I costi sono assurdi:
👉 l'API costa $75 per milione di token in input e $150 per milione in output... 30 volte di più in input e 15 volte di più in output rispetto a GPT-4o 💸
Ah e ieri vedevo questo meme su X e mi ha fatto molto ridere, te lo volevo condividere 😂
Ok, voglio fare un paio di riflessioni prima di chiudere.
L’Extended Thinking Mode non è solo una novità di Anthropic.
O per lo meno lo è per adesso.
Ma ci indica una direzione precisa verso cui si stanno muovendo le Big Tech:
👉 focalizzarsi su un unico modello: è sempre più chiaro che la strategia futura sarà avere pochi modelli unificati da usare in tanti contesti diversi (anche GPT-5 dovrebbe essere così).
Per quanto riguarda Sonnet 3.7 io l’ho testato nel weekend e posso dirti che:
Alla fine se ci pensi, ormai tutti i modelli hanno delle capacità assurde e tutti possono servirti in base all’utilizzo che ne fai.
Giacomo Ciarlini - Head of Content & Education - Datapizza
Alexandru Cublesan - Media Manager & Creator - Datapizza
Utilizziamo i cookies al fine di raccogliere ed utilizzare dati come dichiarato nell’informativa sulla privacy.
Cliccando su "Accetta", aderisci all'utilizzo dei nostri cookies.
Scopri di più