GPT-4o Mini - OpenAI colpisce ancora

OpenAI ha appena lanciato GPT-4o mini, l’ultima versione “compressa” del suo modello di punta, GPT-4o.

Innanzitutto, parliamo di numeri.

GPT-4o mini costa 15 centesimi per milione di token in input e 60 centesimi per milione di token in output.

Per darti un'idea, è circa il 60% più economico di GPT-3.5 Turbo e significativamente più conveniente di concorrenti come Claude Haiku di Anthropic.

Ma non è solo questione di prezzo…

OpenAI afferma che GPT-4o Mini supera modelli simili in diversi benchmark importanti:

📌 Su MMLU, un test di ragionamento generale, GPT-4o mini ha ottenuto l'82%, contro il 77.9% di Gemini Flash e il 73.8% di Claude Haiku.

📌 Per il ragionamento matematico (MGSM), ha raggiunto l'87%, Gemini Flash (75.5%) e Claude Haiku (71.7%).

📌 Nelle performance di coding (HumanEval), ha segnato l'87.2%, Gemini Flash (71.5%) e Claude Haiku (75.9%).

Dal sito di OpenAI:

Questi risultati sono impressionanti, anche se è sempre bene aspettare conferme da test indipendenti…

Un paio di pensieri sparsi:

In generale, sembra migliore di tutti gli altri modelli “di piccola taglia”?

Anche se non conosciamo la grandezza del modello ovviamente…

Un altro aspetto interessante è la dimensione dell’output, che raddoppia.

Sul fronte delle capacità, il modello supporta attualmente input di testo e immagini, con il supporto per video e audio previsto per il futuro.

Questo lo posiziona come un serio concorrente tra i modelli multimodali.

OpenAI ha anche introdotto alcune novità sul fronte della sicurezza.

GPT-4o mini utilizza una tecnica chiamata "instruction hierarchy" per resistere meglio ai tentativi di jailbreak e alle iniezioni di “prompt malevoli”.

È un passo avanti, anche se alcuni ricercatori sostengono di aver già trovato modi per aggirare queste protezioni…

Sicuramente aspettiamoci Tweet virali che fanno vedere come fare Jailbreak del modello. 😂

Bene, quindi nuovo modello, super veloce, e molto efficiente. 🙂

Un altro paio di riflessioni…

1. La competizione si sta intensificando nel segmento dei modelli più economici.

OpenAI sta chiaramente cercando di riconquistare terreno dopo che modelli come Claude Haiku e Gemini Flash hanno attirato molti utenti → Noi stessi li stiamo preferendo.

Appena testiamo Mini ti dico come va!

2. I prezzi stanno scendendo rapidamente. Solo un anno fa, modelli con queste capacità costavano molto di più. Calcola che è sceso del 99% il prezzo delle API dal lancio di GPT-3.5

3. Le prestazioni dei modelli "piccoli" stanno migliorando notevolmente. GPT-4o mini dimostra che è possibile ottenere risultati eccellenti anche senza ricorrere ai modelli più grandi e costosi.

Impressionante, no?

Se vuoi approfondire, ti consiglio di dare un'occhiata al post ufficiale di OpenAI. 👀

Ci vediamo la prossima settimana, in cui spero di parlare di Llama 3, versione 405B.

By Giacomo Ciarlini - Head of Content & Education - Datapizza

Altre news interessanti

Meta non rilascerà i modelli multi-modali in Europa.
La Cina sta testando i modelli AI per farli aderire “alla linea del Partito”.
Reuters rilascia altri dettagli leaked sul progetto “Strawberry”, nuovo modello di OpenAI.
Microsoft rilascia “Sheet Compressor”, un approccio per modellare gli spreadsheet con gli LLM.

Datapizza Selection

🤯 Sam Altman speaker in Italia ad un evento GRATUITO

Sto parlando della Italian Tech Week.

👉 Un evento GRATIS in cui si parlerà un sacco di AI, e dove si riuniranno leader di settore, fondatori e investitori.

Tra gli speaker (tutti super sensati tra l'altro) ci sarà anche Sam Altman! Quindi puoi immaginare il livello dell’evento.

Infatti noi in Datapizza non ce lo perderemo! 😉

Prossimamente vi faremo sapere i giorni precisi in cui ci troverete lì… così magari ci facciamo anche due chiacchiere. 😉

📆 Dal 25 al 27 settembre

⏰ 10:00-18:00

📍 Torino, OGR - Officine Grandi Riparazioni

Essendo gratuiti, ti consiglio di prendere i biglietti prima che finiscano, ti lascio il link direttamente qui: https://italiantechweek.com/get-your-ticket#iframe

E se ci sarai anche tu, mi raccomando batti un colpo! 🙂

👇 Un sito per comparare i modelli AI

Ti consiglio questo sito per confrontare tutti i modelli e le loro performance.

È una figata, in pratica si può filtrare per costi, performance, e capacità.

Mette anche a confronto i vari provider per capire qual è il modo più economico per usare un modello specifico.

In quest’immagine ad esempio vediamo come GPT-4o Mini si posizioni in modo incredibile come il migliore tradeoff tra costi e performance.

Sull’asse Y c’è la qualità e su X il costo.

Quindi il quadrante in altro a sinistra è dove ci sono i modelli migliori.

Fidati salvati il sito, super utile.

👀 Una convention che racconteremo da dietro le quinte - Non il solito evento!

Il 3 e 4 Ottobre, io e Pierpaolo D'Odorico parteciperemo alla convention Var Group, una tra le più grandi realtà che supporta le aziende nella loro evoluzione digitale da un punto di vista strategico.

💡 Ovviamente si parlerà di AI ma non solo!

Soprattutto, non sarà il solito evento…

Perché sarà strutturato in diversi momenti:

👉 Da talk con speaker di settore (anche internazionali) 👉 A sessioni di approfondimento. 👉 Fino a momenti di networking con i più importanti vendor del mondo.

Noi modereremo le due sessioni di workshop “Digital Deep Dive” e vi faremo vivere in prima persona le sfide che molte aziende affrontano oggigiorno.

Per farti un’idea, toccheremo tematiche come:

👉 AI e modelli predittivi 👉 Digital Evolution 👉 Cyber Security 👉 Sostenibilità

Ovviamente ti racconteremo tutto durante e post-evento e non mancheranno news da dietro le quinte. 👀

Se vuoi approfondire, ECCO IL LINK alla landing dell'evento.

🆕 Un nuovo paper sulla Prompt Engineering

Come sai, le tecniche per “spremere” il meglio delle performance dai modelli di linguaggio come GPT o Gemini sono dette “Prompt Engineering”.

Dall’anno scorso sono stati scoperti un sacco di approcci nuovi, a volte anche strani e controintuitivi, per estrarre il massimo dai modelli di GenAI.

Ogni tanto però è giusto fermarsi e cercare di avere uno sguardo “da 10.000 metri di altezza” a tutte queste tecniche.

Il nuovo survey paper fa proprio questo, elencando tutte le famiglie di tecniche e i loro punti di forza e debolezza.

Salvatelo, ha senso.

25/07/2024GPT-4o Mini - OpenAI colpisce ancora

Altre news interessanti

🤯 Sam Altman speaker in Italia ad un evento GRATUITO

👇 Un sito per comparare i modelli AI

👀 Una convention che racconteremo da dietro le quinte - Non il solito evento!

🆕 Un nuovo paper sulla Prompt Engineering