Settimana scorsa è successa una cosa che aspettavamo da mesi…
Se hai aperto X, LinkedIn o Instagram negli ultimi giorni, probabilmente hai visto una valanga di contenuti in stile Studio Ghibli o meme con una qualità visiva pazzesca. 💣
Ecco, tutte queste immagini sono state generate col nuovo generatore di immagini di GPT-4o, integrato direttamente in ChatGPT.
Capiamo meglio di cosa si tratta👇
OpenAI ha rilasciato questa nuova funzionalità praticamente a sorpresa.
In pratica, ora puoi generare qualsiasi tipo di immagine direttamente su ChatGPT selezionando la funzionalità “Crea Immagine” in GPT-4o.
E l’output è assurdo.
Ora puoi:
Per chi lavora nel design, nel marketing o semplicemente crea contenuti, questo è un game changer.
Anche noi in Datapizza stiamo facendo dei test nel team Media (ma ha ancora dei problemi col nostro logo) 😂
Ma facciamo un passo indietro e capiamo dove sta il vero cambiamento…
Allora, se hai utilizzato altri strumenti di generazione immagini avrai notato che una delle differenze principali sono le scritte.
Le scritte sono sempre state un problema…ma perché? 🤔
In pratica, i modelli di generazione immagini sono modelli basati sulla tecnica della diffusione.
Ma la diffusione non lascia spazio a concetti e architetture logiche come il testo in fase di generazione, quindi in output ottieni sempre scritte strane.
Quando un modello generativo a diffusione genera una scritta non “pensa” a generare la scritta in modo logico ma genera un insieme di macchie di pixel che più o meno assemblano un’immagine che dovrebbe ricordare quella scritta. 🌃
Questa è la differenza grossa.
Io onestamente mi aspettavo questo tipo di rilascio tra 12-18 mesi. 🗓️
Insomma, sembra che ogni volta che altri laboratori di ricerca fanno dei rilasci, OpenAI sia pronta a oscurarli con qualcosa che fa molto più rumore. 👀
Infatti settimana scorsa non si è parlato d’altro.
Molti mi hanno chiesto come mai secondo me è stata OpenAI ad arrivarci per prima e non altri laboratori che sono specializzati in questo.
Allora, secondo me ci sta che OpenAI ci sia arrivata per prima.
Questo perché se pensiamo alle scaling law, OpenAI è quella che ha più dati, più expertise e che ha un dark lead, ossia un vantaggio segreto di almeno un anno rispetto agli altri laboratori AI.
Chissà nel frattempo cos’altro hanno di nascosto che rilasceranno in momenti strategici nei prossimi mesi. 😂
Ma settimana scorsa non è successo solo questo…
Mentre OpenAI ha fatto questo rilascio, Anthropic ha pubblicato tre paper.
Il bello di Anthropic è che non solo innova ma tenta anche di spiegare perché tutto questo funziona.
Questo weekend l’ho passato praticamente a leggere questi paper.
E visto la portata del tema abbiamo organizzato una live per approfondire l’argomento.
Poi alla fine ti lascio tutte le informazioni sulla live.
Qual è il tema principale? 🤔
Te lo spiego in breve: i ricercatori di Anthropic hanno costruito un microscopio per osservare come pensa un Large Language Model mentre risponde.
L’obiettivo è quello di capire cosa succede all’interno del modello quando gli si chiede una determinata cosa.
E hanno scoperto diverse cose…👇
📌 Il modello non pensa in una lingua specifica
Partiamo da un esempio: quando fai una domanda in italiano, inglese o cinese, il modello non “sceglie” la lingua. 🌍
Quello che fa è pensare in uno spazio latente condiviso tra tutte le lingue e prima di rispondere traduce il contenuto nella lingua target.
Non esistono dei piccoli Claude che ragionano in Cinese o in Francese e che si accendono in base alla lingua.
Alla fine se ci pensi è come funziona il nostro cervello: io nasco in Italia, imparo in italiano e studio Machine Learning in italiano.
Se poi devo fare un esame di Deep Learning in inglese, ho le basi di inglese, io penso in italiano mentre eseguo l’esame ma poi scrivo tutte le soluzioni in inglese.
Questo perché ho più conoscenze in italiano e ho pensato e studiato per molto più tempo in italiano.
📌 Il modello sa quando non sa
Cosa vuol dire questo?
In pratica, hanno trovato un “percorso neurale” che si attiva quando il modello non ha certezza su un'informazione.
Questa parte del modello viene inibita solo se durante il processo viene trovato qualcosa di noto (che conosce).
Il modello di base sa che non sa fino a che durante la computazione dice “ah no questa cosa la so” e quindi inibisce il percorso e ti risponde.
Il che significa che le allucinazioni non sono casuali. Sono il risultato di un meccanismo complesso che di base parte dal “non so”, e poi cerca una risposta (che può anche essere sbagliata).
📌 Il ragionamento avviene a step
Nei test logici, i ricercatori hanno osservato il modello compiere passaggi sequenziali, esattamente come faremmo noi.
Tipo:
E questo è un primo passo verso la spiegazione scientifica del reasoning nei LLM.
Queste ricerche sono ancora su modelli piccoli (il modello “Haiku” di Claude), e su prompt semplici (domande di massimo 15 parole).
Ma sono fondamentali perché aprono una strada: capire come funziona l’intelligenza sintetica per migliorare quella umana.
Giacomo Ciarlini - Head of Content & Education - Datapizza
Alexandru Cublesan - Media Manager & Creator - Datapizza
Utilizziamo i cookies al fine di raccogliere ed utilizzare dati come dichiarato nell’informativa sulla privacy.
Cliccando su "Accetta", aderisci all'utilizzo dei nostri cookies.
Scopri di più