Non possiamo sapere se un dato è generato con l’AI oppure no.
Ma lo sapevamo.
Anzi, in realtà lo sappiamo da un bel po’ di tempo.
Quello che però è successo di recente è che OpenAI ha ritirato il proprio tool di AI detection e lo ha fatto in modo “discreto” per così dire.
Se nemmeno il laboratorio AI più avanti di tutti sull’AI generativa riesce a creare un tool affidabile, beh è chiaro dove stiamo andando a parare.
Perché non funzionano?
il motivo è semplice.
I tool di AI detection per definizione “rincorrono” lo sviluppo di quelle che AI che invece dovrebbero identificare.
Questo significa che sono “sempre un passo indietro”, come la polizia con i criminali.
Inoltre sono programmati per “segnalare” come generati da AI quando la scelta delle parole è prevedibile e le frasi sono più semplici.
Questo porta a un secondo problema, ovvero che la semplice “mancanza di vocabolario” inglese è sufficiente per identificarci come “probabili AI”.
Ma quindi?
Quindi succede che chi non è madrelingua inglese ha una probabilità molto più alta di venire identificato come AI, anche è umano!
Questo semplicemente perché ha un vocabolario più povero o costruisce frasi meno complesse.
Di nuovo: i tool di AI detection non funzionano.
E probabilmente non funzioneranno (mai)?
L’attuale architettura e metodi di addestramento delle AI generative ci consegna dei modelli che sono delle “Black Box”, e che non riusciamo a interpretare facilmente.
E come fai a dire che uno scritto o un’immagine è generata da AI, se nemmeno riesci a spiegare bene come l’output sia generato?
Quello della AI detection ci sembra un problema complesso e forse irrisolvibile “partendo dalla fine”.
Ma se si partisse dall’inizio?
Google ha appena lanciato un tool che permette di creare immagini AI che contengono un marcatore che dice “hey, sono generato da AI”!
Una possibile mitigazione del problema potrebbe essere usare solo tool che mettono questi “watermark”… ma essendo che i modelli che sono open source non lo fanno, siamo già indietro anche rispetto a questa idea.
Inoltre, dove stanno gli incentivi a dire che i dati che abbiamo generato sono stati creati (almeno in parte) da una macchina?
Prova assolutamente la nuova funzionalitĂ di Perplexity, che permette di caricare un file e chiedere qualsiasi cosa!
La novità è che ora integra Claude 2, che ha 100k token di contesto (vedi: differenza fra parole e token).
Quindi files più lunghi, moooooolto più lunghi… e risposte più coerenti!
Utile, funziona bene.
A proposito di “contenuto generato da AI” come possiamo preparare la scuola alla trasformazione dell’AI generativa?
Risposta breve: non c’è una risposta breve.
Il professore di Wharton Ethan Mollick ci anche la sua visione su quella che chiama “Homework Apocalypse”, che affronta il tema dell’AI generativa nelle scuole, da Settembre 2023.