L’AI generativa è un sistema operativo?
E perché capiamo ancora poco delle sue implicazioni…
In un recente tweet Andrej Kharpathy, ex direttore AI di Tesla (ora OpenAI), afferma che i Large Language Models assomigliano molto a… dei sistemi operativi.
Cioè?
Quello che sostiene è un interessante parallelismo:
In sostanza quindi hanno tutte le funzionalità che un sistema operativo (in senso ampio) dovrebbe avere, per fungere da “piattaforma” per sviluppare applicativi.
Il parallelismo continua poi: alcuni sono commerciali e closed source, come GPT, Palm, e Claude, e possono essere paragonati a Windows e MacOS.
Altri sono open source, ad esempio come Llama e Mistral, come è Linux.
Inoltre, se ci pensiamo, il concetto di “sviluppare applicazioni” è molto stretto nel parallelismo: come sviluppiamo software che funziona sui vari sistemi operativi, allo stesso modo stanno nascendo tantissimi plugins e “wrappers”, che non fanno altro che effettuare chiamate ad altri componenti di più basso livello.
Solo che in questo caso si tratta di “prompt” inviati al modello di linguaggio, e non funzioni del sistema operativo!
Inoltre, anche altre innovazioni stanno nascendo, in termini di UI & UX.
Se ci pensiamo, da quanto è stato inventato il mouse e la tastiera, non sono avenute grosse innovazioni lato “interfaccia”…
Si è vero, abbiamo avuto assistenti vocali ben prima di oggi, ma in realtà non erano abbastanza intelligenti per cambiare totalmente il nostro modo di approcciarci alla tecnologia.
Quante volte ti è capitato di sentire quel senso di frustrazione perchè Alexa non capiva che volevi cambiare canzone?
E anche se lo avesse capito, quanto è davvero impattante nella vita quotidiana questo cambiamento?
Molto poco.
Quello che potrebbe essere molto impattante invece è la capacità di un sistema di comprendere tutte le sfaccettature dei nostri comandi, essere connesso alle nostre conoscenze / documenti, e infine, agire per conto nostro?
Su questo tema, ovvero quello degli agenti, in realtà siamo piuttosto scettici al momento.
Si è vero, a inizio anno AutoGPT ha fatto molto parlare di sé, ma i problemi di questi software sono vari:
Insomma, siamo in una fase iniziale estremamente acerba, nella quale i “sistemi operativi LLM” stanno iniziando a prendere forma, ma ci vorrà ancora parecchio tempo (ma soprattutto, tools, “linee guida” e comprensione teorica) per farli funziona al meglio.
Tuttavia attenzione a sottovalutare la potenza di questa tecnologia, pensare che siano solo “chatbot” sarebbe lo stesso errore di pensare che i computer fossero solo… “calcolatrici”.
Anche se continuiamo a non fidarci dell’AI generativa abbastanza da farla operare in autonomia, la usiamo per tanti altri tanti casi di “utilità mondana” come riassumere, estrarre o trasformare testo, schematizzare, generare idee per brainstorming, e tanto altro.
Per quello, funziona già molto bene.
Abbiamo finalmente avuto l’accesso a DALL-E 3 dentro ChatGPT, ed è davvero potente!
A livello di qualità dell’immagine non è ancora all’altezza di MidJourney, ma ha il grande vantaggio che è veramente semplice da usare.
La UX spesso è quello che cambia tra l’uso di massa di un’applicazione e il fatto che rimanga di nicchia.
Sicuramente averla a portata di click dentro ChatGPT… beh non è cosa da poco!
Provalo, dovresti averlo anche tu! [serve versione a pagamento]
Illustrazione del 1600 che mostra il progetto di un automa futuristico per creare pizze
La settimana scorsa Anthropic ha rilasciato una interessantissima ricerca sul tema dell’Interpretabilità dell’AI generativa.
In pratica sono riusciti a capire alcune componenti di come funziona il “ragionamento” dei modleli di linguaggio, e sebbene il modello usato siano molto più semplice dei modelli dietro ad applicazioni come ChatGPT, è un passo promettente nella giusta direzione.
Senza capire questa tecnologia, come possiamo davvero trarne vantaggio ed evitarne i rischi?