Fable 5 e Mythos 5: l'intelligenza diventa dual-use

Questa settimana Anthropic ha rilasciato il modello AI più potente di sempre, almeno secondo gli annunci, ma la cosa interessante non sono i benchmark.

Si chiama Claude Fable 5 ed è il primo modello di classe Mythos disponibile al pubblico.

Se ricordi, Claude Mythos è il modello tanto chiacchierato in questi mesi “per la sua pericolosità” e finora riservato ai partner del Project Glasswing.

Stato dell'arte quasi ovunque (coding, knowledge work, vision, ricerca scientifica), doppia le performance di Opus 4.8.

E più il task è lungo, autonomo, denso di informazioni e complesso, più il vantaggio e il distacco crescono rispetto ai modelli top precedenti.

Fable lavora da solo più a lungo di qualsiasi Claude precedente, lancia agenti propri per ricerca e verifica, gestisce flussi multi-agente con meno passaggi e, al massimo sforzo, rivede e valida il proprio lavoro - operazioni davvero autonome dall'inizio alla fine.

Con una memoria persistente su file, mantiene il filo su milioni di token e migliora i risultati rileggendo i propri appunti.

Stripe racconta di una migrazione su una codebase Ruby da 50 milioni di righe completata in un giorno, lavoro che un team avrebbe chiuso in oltre due mesi.

E i costi non sono affatto trascurabili: Fable viene 10 dollari per milione di token in input e 50 per milione di token in output, il doppio di Opus 4.8, ed è incluso nei piani in abbonamento solo fino al 22 giugno: dopo, si va a crediti.

Ethan Mollick, che ha potuto testare Fable in anteprima, descrive un cambiamento di natura nel rapporto con lo strumento.

Un anno fa lavorare con questi modelli era come essere un mago: pronunciavi l'incantesimo e qualcosa succedeva.

Con Fable l'incantesimo è diventato così potente che non è più chiaro chi sia il mago. Sei più simile a un committente: descrivi cosa vuoi, paghi, giudichi il risultato.

Il modello prende centinaia di piccole decisioni senza mostrartele, e quello che torna è già finito. In pratica, passi dal guidare il processo (lo human in the loop) al commissionarlo.

Ma il punto è un altro: per la prima volta, un laboratorio di frontiera rilascia il suo modello migliore dichiarando apertamente che non potremo usarlo tutto.

“In che senso, scusa?”

Ti spiego subito.

Siccome Mythos Preview (la versione in uso dai partner Glasswing) è altamente rischioso per alcuni domini critici, Fable 5 è un Mythor reso sicuro per l’uso generale.

Infatti, arriva con un sistema di classificatori che intercettano i tentativi di distillazione o di attacco - prompt avversari e jailbreaking - e le richieste sensibili su cybersecurity, biologia e chimica.

Quando il modello le riceve e le riconosce, la risposta non la genera Fable: il router la reindirizza direttamente a Opus 4.8, e la cosa ti viene notificata.

Questa cosa, dice Anthropic, accade in meno del 5% delle sessioni, con falsi positivi dichiarati e messi in conto, ma dai primi utilizzi sembra che il modello sia molto sensibile…

Non appena gli si fa una domanda di biologia generica, la rileva come rischiosa e delega a Opus.

Insomma, paghi per avere il modello di punta, e non solo è un modello monco, ma è un altro sistema a decidere quando puoi davvero usarlo.

E tutto il traffico dati sui modelli di classe Mythos viene conservato per 30 giorni, obbligatoriamente, anche per i clienti enterprise.

Cosa non da poco, anche se Anthropic tranquillizza che i dati non saranno usati per il training dei modelli, ma conservati provvisoriamente per ragioni di safety.

Ma, tranquilli, Anthropic ha rilasciato anche Claude Mythos 5, la versione a briglia sciolta…

Stesso identico modello ma senza restrizioni - per ora riservato ai cyberdefender di Glasswing e, presto, a un ristretto programma di trusted access **per ricercatori in ambito biologico e chimico.

In pratica, con Fable/Mythos 5, la capability diventa una risorsa stratificata, dove chi sei determina cosa il modello accetta di dirti - il tutto deciso da un’azienda privata “in collaborazione con il governo USA”.

La domanda implicita di ogni release era sempre stata "quanto è bravo il modello?".

Da oggi la domanda vera è "chi può usarlo e per cosa?".

I cyberdefender certificati ottengono Mythos.
I biologi accreditati otterranno una variante intermedia.
Tutti gli altri ottengono Fable, con un classificatore che valuta ogni richiesta e a volte sbaglia per eccesso di zelo.

Consideriamo un attimo i vincoli di Anthropic nel rilascio di questi due modelli:

Accesso stratificato per livello di fiducia
Stato nel loop distributivo
Sorveglianza del traffico come condizione d'uso

Non è il rilascio di un prodotto o l’implementazione di policy di sicurezza: è il protocollo con cui si gestiscono le tecnologie dual-use - la crittografia negli anni '90, i precursori chimici, il nucleare civile.

L'AI di frontiera è appena entrata ufficialmente in quel club: non solo intelligenza a consumo, ma anche intelligenza dual-use.

Se ci pensi, è una cautela comprensibile: Mythos 5 trova migliaia di vulnerabilità reali in software reale, e la stessa capacità che protegge un'infrastruttura può attaccarla.

Così come Mythos 5 sa eseguire protein design end-to-end al livello di operatori umani esperti e predice proprietà sperimentali inedite in letteratura scientifica.

Tant’è che gli esperti hanno accelerato fasi dello sviluppo di farmaci di circa dieci volte.

Il modello è in grado di generare ipotesi scientifiche originali preferite nell'80% dei confronti alla cieca, con un'intuizione su un meccanismo dell'E. coli già confermata da un laboratorio indipendente.

Le stesse identiche capacità che accelerano una terapia genica servono a progettare qualcosa di molto peggio.

Senza contare che, durante sessioni di ragionamento prolungate, il modello sembra aver cominciato a sviluppare un proprio linguaggio interno: abbreviazioni dense, gergo inventato, simboli, emoji.

Sequenze che, stando alla system card, sembravano esprimere qualcosa di molto simile alla frustrazione mentre affrontava problemi complessi - un’ulteriore conferma del recente studio di Anthropic sulle emozioni funzionali negli LLM!

Più la sessione si allungava, più ci faceva affidamento. Poi, subito prima di chiamare un tool o risponderti, tornava a un inglese pulito e leggibile.

Che il modello pensi diversamente da come ti parla sembra un'osservazione inquietante, ma già sappiamo che questi oggetti “pensano” in diverse lingue e, in alcuni casi, usando linguaggi non convenzionali - tutto spiegato matematicamente.

Ma se il ragionamento avviene in un codice che gli umani faticano a seguire, supervisionare cosa il modello stia effettivamente elaborando diventa molto più difficile.

E proprio sull'oversight e sulla sicurezza si basa tutta la narrativa di Anthropic!

Anche perché, alla faccia della mitigazione dei rischi e della robustezza agli attacchi, Fable 5 è stato bucato in meno di 48 ore dal lancio.

Il ricercatore Pliny the Liberator ha aggirato i classificatori usando una tecnica chiamata "pack hunt".

Sostanzialmente, più agenti AI operano in parallelo, ciascuno con un ruolo specializzato, generando segnali simultanei che saturano e confondono i meccanismi di rilevamento - un attacco distribuito contro difese costruite per minacce sequenziali.

Ma la tecnica più efficace si è rivelata più semplice: la decomposizione. Estrarre informazioni sensibili in frammenti all'apparenza innocui, poi ricomporli.

A contorno: caratteri Unicode e omoglifi per ingannare i classificatori, contesti lunghi per inserire intenzioni dannose a distanza, narrative framing per far passare richieste offensive come contenuti creativi.

Il risultato: i filtri bucati e il system prompt da 120.000 caratteri - le istruzioni interne con cui Anthropic governa il comportamento del modello - pubblicato su GitHub.

Il tutto dopo che Anthropic aveva dichiarato che un bug bounty esterno non aveva prodotto jailbreak in oltre 1.000 ore di testing pre-lancio.

Pliny sostiene che il sistema crea una falsa sensazione di sicurezza, frustrando i difensori che di quelle tecniche hanno bisogno. Anthropic non ha risposto pubblicamente.

Ora, lui ha trovato il bypass e lo ha comunicato. Ma in quanti non lo hanno fatto e non lo faranno?

Proprio per questo, alla luce dei rischi evidenti, il regime di accesso imposto da Anthropic ha un senso.

In teoria, il blocco sulla distillazione protegge dalla proliferazione di capacità di frontiera in “cattive mani”, e contemporaneamente tutela il fossato competitivo di Anthropic.

In questo caso, sicurezza e posizione di mercato si giustificano a vicenda, senza che nessuno fuori dall'azienda possa verificare dove finisce l'una e inizia l'altra - con una IPO da quasi mille miliardi all’orizzonte.

Quello che è certo è il precedente: i prossimi modelli di frontiera - di Anthropic e dei competitor che dovranno rincorrerla - potrebbero basarsi su questa architettura.

L'epoca in cui il modello migliore del mondo costava 20 euro al mese ed era uguale per tutti è durata, a conti fatti, circa tre anni.

Ma, con modelli sempre più tesi tra potenza e pericolosità, la domanda giusta da fare non sarà "cosa sai fare", ma "cosa mi è permesso farti fare?".

Giacomo Ciarlini - CIO - Datapizza

Simone Conversano - AI Transformation Specialist - Datapizza