25/07/2024GPT-4o Mini - OpenAI colpisce ancora

OpenAI ha appena lanciato GPT-4o mini, l’ultima versione “compressa” del suo modello di punta, GPT-4o.

Innanzitutto, parliamo di numeri.

GPT-4o mini costa 15 centesimi per milione di token in input e 60 centesimi per milione di token in output.

Per darti un'idea, è circa il 60% più economico di GPT-3.5 Turbo e significativamente più conveniente di concorrenti come Claude Haiku di Anthropic.

Ma non è solo questione di prezzo…

OpenAI afferma che GPT-4o Mini supera modelli simili in diversi benchmark importanti:

📌 Su MMLU, un test di ragionamento generale, GPT-4o mini ha ottenuto l'82%, contro il 77.9% di Gemini Flash e il 73.8% di Claude Haiku.

📌 Per il ragionamento matematico (MGSM), ha raggiunto l'87%, Gemini Flash (75.5%) e Claude Haiku (71.7%).

📌 Nelle performance di coding (HumanEval), ha segnato l'87.2%, Gemini Flash (71.5%) e Claude Haiku (75.9%).

Dal sito di OpenAI:

Questi risultati sono impressionanti, anche se è sempre bene aspettare conferme da test indipendenti…

Un paio di pensieri sparsi:

In generale, sembra migliore di tutti gli altri modelli “di piccola taglia”?

Anche se non conosciamo la grandezza del modello ovviamente…

Un altro aspetto interessante è la dimensione dell’output, che raddoppia.

Sul fronte delle capacità, il modello supporta attualmente input di testo e immagini, con il supporto per video e audio previsto per il futuro.

Questo lo posiziona come un serio concorrente tra i modelli multimodali.

OpenAI ha anche introdotto alcune novità sul fronte della sicurezza.

GPT-4o mini utilizza una tecnica chiamata "instruction hierarchy" per resistere meglio ai tentativi di jailbreak e alle iniezioni di “prompt malevoli”.

È un passo avanti, anche se alcuni ricercatori sostengono di aver già trovato modi per aggirare queste protezioni

Sicuramente aspettiamoci Tweet virali che fanno vedere come fare Jailbreak del modello. 😂

Bene, quindi nuovo modello, super veloce, e molto efficiente. 🙂

Un altro paio di riflessioni…

1. La competizione si sta intensificando nel segmento dei modelli più economici.

OpenAI sta chiaramente cercando di riconquistare terreno dopo che modelli come Claude Haiku e Gemini Flash hanno attirato molti utenti → Noi stessi li stiamo preferendo.

Appena testiamo Mini ti dico come va!

2. I prezzi stanno scendendo rapidamente. Solo un anno fa, modelli con queste capacità costavano molto di più. Calcola che è sceso del 99% il prezzo delle API dal lancio di GPT-3.5

3. Le prestazioni dei modelli "piccoli" stanno migliorando notevolmente. GPT-4o mini dimostra che è possibile ottenere risultati eccellenti anche senza ricorrere ai modelli più grandi e costosi.

Impressionante, no?

Se vuoi approfondire, ti consiglio di dare un'occhiata al post ufficiale di OpenAI. 👀

Ci vediamo la prossima settimana, in cui spero di parlare di Llama 3, versione 405B.


By Giacomo Ciarlini - Head of Content & Education - Datapizza


Altre news interessanti 


Datapizza Selection

🤯 Sam Altman speaker in Italia ad un evento GRATUITO

Sto parlando della Italian Tech Week.

👉 Un evento GRATIS in cui si parlerà un sacco di AI, e dove si riuniranno leader di settore, fondatori e investitori.

Tra gli speaker  (tutti super sensati tra l'altro) ci sarà anche Sam Altman! Quindi puoi immaginare il livello dell’evento.

Infatti noi in Datapizza non ce lo perderemo! 😉

Prossimamente vi faremo sapere i giorni precisi in cui ci troverete lì… così magari ci facciamo anche due chiacchiere. 😉

📆 Dal 25 al 27 settembre

⏰ 10:00-18:00

📍 Torino, OGR - Officine Grandi Riparazioni

Essendo gratuiti, ti consiglio di prendere i biglietti prima che finiscano, ti lascio il link direttamente qui: https://italiantechweek.com/get-your-ticket#iframe

E se ci sarai anche tu, mi raccomando batti un colpo! 🙂

👇 Un sito per comparare i modelli AI 

Ti consiglio questo sito per confrontare tutti i modelli e le loro performance.

È una figata, in pratica si può filtrare per costi, performance, e capacità.

Mette anche a confronto i vari provider per capire qual è il modo più economico per usare un modello specifico.

In quest’immagine ad esempio vediamo come GPT-4o Mini si posizioni in modo incredibile come il migliore tradeoff tra costi e performance.

Sull’asse Y c’è la qualità e su X il costo.

Quindi il quadrante in altro a sinistra è dove ci sono i modelli migliori.

Fidati salvati il sito, super utile.

👀 Una convention che racconteremo da dietro le quinte - Non il solito evento!  

Il 3 e 4 Ottobre, io e Pierpaolo D'Odorico parteciperemo alla convention Var Groupuna tra le più grandi realtà che supporta le aziende nella loro evoluzione digitale da un punto di vista strategico.

💡 Ovviamente si parlerà di AI ma non solo!

Soprattutto, non sarà il solito evento…

Perché sarà strutturato in diversi momenti:

👉 Da talk con speaker di settore (anche internazionali) 👉 A sessioni di approfondimento. 👉 Fino a momenti di networking con i più importanti vendor del mondo.

Noi modereremo le due sessioni di workshop “Digital Deep Dive” e vi faremo vivere in prima persona le sfide che molte aziende affrontano oggigiorno.

Per farti un’idea, toccheremo tematiche come:

👉 AI e modelli predittivi 👉 Digital Evolution 👉 Cyber Security 👉 Sostenibilità

Ovviamente ti racconteremo tutto durante e post-evento e non mancheranno news da dietro le quinte. 👀

Se vuoi approfondire, ECCO IL LINK alla landing dell'evento.

🆕 Un nuovo paper sulla Prompt Engineering

Come sai, le tecniche per “spremere” il meglio delle performance dai modelli di linguaggio come GPT o Gemini sono dette “Prompt Engineering”.

Dall’anno scorso sono stati scoperti un sacco di approcci nuovi, a volte anche strani e controintuitivi, per estrarre il massimo dai modelli di GenAI.

Ogni tanto però è giusto fermarsi e cercare di avere uno sguardo “da 10.000 metri di altezza” a tutte queste tecniche.

Il nuovo survey paper fa proprio questo, elencando tutte le famiglie di tecniche e i loro punti di forza e debolezza.

Salvatelo, ha senso.