OpenAI ha appena lanciato GPT-4o mini, l’ultima versione “compressa” del suo modello di punta, GPT-4o.
Innanzitutto, parliamo di numeri.
GPT-4o mini costa 15 centesimi per milione di token in input e 60 centesimi per milione di token in output.
Per darti un'idea, è circa il 60% più economico di GPT-3.5 Turbo e significativamente più conveniente di concorrenti come Claude Haiku di Anthropic.
Ma non è solo questione di prezzo…
OpenAI afferma che GPT-4o Mini supera modelli simili in diversi benchmark importanti:
📌 Su MMLU, un test di ragionamento generale, GPT-4o mini ha ottenuto l'82%, contro il 77.9% di Gemini Flash e il 73.8% di Claude Haiku.
📌 Per il ragionamento matematico (MGSM), ha raggiunto l'87%, Gemini Flash (75.5%) e Claude Haiku (71.7%).
📌 Nelle performance di coding (HumanEval), ha segnato l'87.2%, Gemini Flash (71.5%) e Claude Haiku (75.9%).
Dal sito di OpenAI:
Questi risultati sono impressionanti, anche se è sempre bene aspettare conferme da test indipendenti…
Un paio di pensieri sparsi:
In generale, sembra migliore di tutti gli altri modelli “di piccola taglia”?
Anche se non conosciamo la grandezza del modello ovviamente…
Un altro aspetto interessante è la dimensione dell’output, che raddoppia.
Sul fronte delle capacità, il modello supporta attualmente input di testo e immagini, con il supporto per video e audio previsto per il futuro.
Questo lo posiziona come un serio concorrente tra i modelli multimodali.
OpenAI ha anche introdotto alcune novità sul fronte della sicurezza.
GPT-4o mini utilizza una tecnica chiamata "instruction hierarchy" per resistere meglio ai tentativi di jailbreak e alle iniezioni di “prompt malevoli”.
È un passo avanti, anche se alcuni ricercatori sostengono di aver già trovato modi per aggirare queste protezioni…
Sicuramente aspettiamoci Tweet virali che fanno vedere come fare Jailbreak del modello. 😂
Bene, quindi nuovo modello, super veloce, e molto efficiente. 🙂
Un altro paio di riflessioni…
1. La competizione si sta intensificando nel segmento dei modelli più economici.
OpenAI sta chiaramente cercando di riconquistare terreno dopo che modelli come Claude Haiku e Gemini Flash hanno attirato molti utenti → Noi stessi li stiamo preferendo.
Appena testiamo Mini ti dico come va!
2. I prezzi stanno scendendo rapidamente. Solo un anno fa, modelli con queste capacità costavano molto di più. Calcola che è sceso del 99% il prezzo delle API dal lancio di GPT-3.5
3. Le prestazioni dei modelli "piccoli" stanno migliorando notevolmente. GPT-4o mini dimostra che è possibile ottenere risultati eccellenti anche senza ricorrere ai modelli più grandi e costosi.
Impressionante, no?
Se vuoi approfondire, ti consiglio di dare un'occhiata al post ufficiale di OpenAI. 👀
Ci vediamo la prossima settimana, in cui spero di parlare di Llama 3, versione 405B.
By Giacomo Ciarlini - Head of Content & Education - Datapizza
Datapizza Selection
Sto parlando della Italian Tech Week.
👉 Un evento GRATIS in cui si parlerà un sacco di AI, e dove si riuniranno leader di settore, fondatori e investitori.
Tra gli speaker (tutti super sensati tra l'altro) ci sarà anche Sam Altman! Quindi puoi immaginare il livello dell’evento.
Infatti noi in Datapizza non ce lo perderemo! 😉
Prossimamente vi faremo sapere i giorni precisi in cui ci troverete lì… così magari ci facciamo anche due chiacchiere. 😉
📆 Dal 25 al 27 settembre
⏰ 10:00-18:00
📍 Torino, OGR - Officine Grandi Riparazioni
Essendo gratuiti, ti consiglio di prendere i biglietti prima che finiscano, ti lascio il link direttamente qui: https://italiantechweek.com/get-your-ticket#iframe
E se ci sarai anche tu, mi raccomando batti un colpo! 🙂
Ti consiglio questo sito per confrontare tutti i modelli e le loro performance.
È una figata, in pratica si può filtrare per costi, performance, e capacità.
Mette anche a confronto i vari provider per capire qual è il modo più economico per usare un modello specifico.
In quest’immagine ad esempio vediamo come GPT-4o Mini si posizioni in modo incredibile come il migliore tradeoff tra costi e performance.
Sull’asse Y c’è la qualità e su X il costo.
Quindi il quadrante in altro a sinistra è dove ci sono i modelli migliori.
Fidati salvati il sito, super utile.
Il 3 e 4 Ottobre, io e Pierpaolo D'Odorico parteciperemo alla convention Var Group, una tra le più grandi realtà che supporta le aziende nella loro evoluzione digitale da un punto di vista strategico.
💡 Ovviamente si parlerà di AI ma non solo!
Soprattutto, non sarà il solito evento…
Perché sarà strutturato in diversi momenti:
👉 Da talk con speaker di settore (anche internazionali) 👉 A sessioni di approfondimento. 👉 Fino a momenti di networking con i più importanti vendor del mondo.
Noi modereremo le due sessioni di workshop “Digital Deep Dive” e vi faremo vivere in prima persona le sfide che molte aziende affrontano oggigiorno.
Per farti un’idea, toccheremo tematiche come:
👉 AI e modelli predittivi 👉 Digital Evolution 👉 Cyber Security 👉 Sostenibilità
Ovviamente ti racconteremo tutto durante e post-evento e non mancheranno news da dietro le quinte. 👀
Se vuoi approfondire, ECCO IL LINK alla landing dell'evento.
Come sai, le tecniche per “spremere” il meglio delle performance dai modelli di linguaggio come GPT o Gemini sono dette “Prompt Engineering”.
Dall’anno scorso sono stati scoperti un sacco di approcci nuovi, a volte anche strani e controintuitivi, per estrarre il massimo dai modelli di GenAI.
Ogni tanto però è giusto fermarsi e cercare di avere uno sguardo “da 10.000 metri di altezza” a tutte queste tecniche.
Il nuovo survey paper fa proprio questo, elencando tutte le famiglie di tecniche e i loro punti di forza e debolezza.