L'esplosione dei Large Language Models (LLM) sta offrendo agli sviluppatori un ventaglio di opzioni sempre più ampio per costruire applicazioni.
Ma come si può sfruttare al meglio questa opportunità?
Abbiamo pensato di scriverti un paio dei nostri appunti per indirizzare i tuoi sforzi sulla strada giusta e farti risparmire tempo.
Ecco una lista di approcci, in ordine crescente di complessità e costo:
→ Prompting: Dare istruzioni a un LLM pre-addestrato permette di costruire un prototipo in poche ore, senza bisogno di un dataset di addestramento.
→ One-shot o few-shot prompting: Oltre al prompt, dare all'LLM alcuni esempi di come svolgere un compito può migliorare i risultati (parecchio, può far passare da “inutilizzabile” a “piuttosto buono”). Consiglio: massimizza la diversità degli esempi.
→ Fine-tuning: Un LLM pre-addestrato può essere ulteriormente addestrato per il tuo compito specifico su un piccolo dataset personalizzato (almeno un paio di centinaia di esempi → parti da Curie e poi passa a Davinci).
→ Pretraining: Addestrare da zero un LLM richiede molte risorse, ma può portare a modelli specializzati come BloombergGPT (finanza) o Med-PaLM 2 (medicina): questa strada è piuttosto infattibile se non sei una grande organizzazione.
Per la maggior parte dei team, consigliamo di iniziare con il prompting, che permette di avere un'applicazione funzionante in poco tempo.
Se la qualità dell'output non fosse soddisfacente, si può passare gradualmente a tecniche più complesse.
Ma attenzione: passare al fine-tuning dopo aver utilizzato il prompting su un modello proprietario, come GPT-4, che NON è disponibile per il fine-tuning, può portare a ulteriori complessità.
La scelta del modello da utilizzare è un altro aspetto cruciale: i modelli più piccoli richiedono meno potenza di elaborazione e funzionano bene per molte applicazioni, ma i modelli più grandi tendono ad avere una maggiore “conoscenza del mondo” e una migliore capacità di ragionamento.
Ah e usa il concetto di Chain-of-Thoughts!
Speriamo che quest consigli ti possano essere utili, e se stai “costruendo cose” non esitare a contattarci!
Ecco alcuni nuovi tools AI che durante la settimana abbiamo provato:
Joon Sung Park e i suoi colleghi di Stanford e Google hanno ampliato GPT-3.5 per creare agenti generativi che si muovono e interagiscono tra di loro in un piccolo paese in modo simili agli esseri umani.
Il codice è ora disponibile open source!
Dai un’occhiata a questo articolo, è estremamente denso di informazioni sul tema GPU per AI generativa.
Super dettagliato e anche un po’ tecnico, ma risorsa incredibile, da salvare assolutamente! 👉 https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/