UltraAI: come abbiamo portato l'AI in Allianz

Abbiamo messo l'AI in produzione su quasi 50.000 consulenti assicurativi. Oggi UltraAI elabora oltre 7 miliardi di token al mese. Non è una demo, non è un pilota ben riuscito: è produzione reale, con impatto misurabile sul lavoro di decine di migliaia di persone ogni giorno.

Raccontare questa storia ci sembra utile e ci onora, perché i numeri sul resto del mercato dicono qualcosa di preciso: arrivare fin qui non è la norma.

Il problema non è l’AI: il Pilot Purgatory

Gartner stimava che, entro la fine del 2025, il 30% dei progetti GenAI sarebbe stato abbandonato dopo il PoC. Secondo IDC, ogni 33 proof of concept AI avviati nelle aziende, solo 4 arrivano in produzione: un tasso di fallimento del 75-88% dei pilot, non il 50% né il 30%.

BCG e altri studi indicano che solo circa il 25-30% delle aziende è riuscito a scalare l’AI oltre la fase pilota con ritorni significativi, mentre il restante 70-75% è fermo in quello che il settore chiama pilot purgatory - quel limbo in cui un progetto funziona abbastanza da non essere cancellato, ma non abbastanza da cambiare davvero qualcosa.

La narrativa comune attribuisce questi fallimenti ai modelli: troppo imprecisi, troppo costosi, troppo difficili da integrare. Ma le stesse ricerche BCG e altri centri di ricerca indicano che la maggior parte del valore dell’AI dipende da cultura, workflow, change management e governance, e solo una parte minore dalla tecnologia.

I modelli funzionano. Il problema è chi è responsabile dell'output, come si misura il valore, se qualcuno ha davvero riprogettato i processi o ha solo aggiunto uno strato AI sopra quelli esistenti.

L’AI nel settore assicurativo

Il mondo assicurativo è tra i più attivi nell’adozione dell’AI. Secondo Deloitte, il 76% delle compagnie assicurative ha già implementato strumenti di GenAI in almeno una funzione di business, segnando un passaggio dal puro esperimento verso l’adozione operativa.

Sempre secondo indagini di settore, la percentuale di assicuratori che ha adottato pienamente l’AI all’interno della propria value chain è passata dall’8% del 2024 al 34% nel 2025 - un aumento del 400% in un solo anno - come indicano i dati Conning.

Poi arriva il numero che ridimensiona tutto: solo una piccola quota di compagnie - secondo studi recenti intorno al 7-10% - ha raggiunto un deployment scalato in una singola funzione aziendale, lasciando la maggior parte dei progetti ancora in fase di sperimentazione o limitata implementazione.

Il gap è strutturale, e ha una radice precisa. Le polizze assicurative sono, per natura, tentativi di modellare la realtà attraverso regole scritte. Più il prodotto è flessibile e modulare, più la documentazione è densa, stratificata, piena di eccezioni. I sistemi NLP tradizionali - entity recognition, tagging dei documenti - si scontravano frontalmente con questa complessità: strumenti precisi su problemi semplici, ma inadeguati su problemi complessi.

La GenAI ha cambiato questa equazione, permettendo di navigare più facilmente regole, eccezioni e contesti impliciti. Tuttavia, trasformare questa opportunità in un deployment scalabile e industrializzato resta un’altra storia, con governance, dati, talenti e change management ancora i principali colli di bottiglia.

UltraAI: cosa abbiamo costruito e come

Nel 2023, mentre il mercato produceva PoC, Datapizza e Allianz stavano facendo qualcosa di diverso: UltraAI.

Il contesto: supportare i consulenti assicurativi che lavorano con Ultra, una famiglia di prodotti Allianz modulare e flessibile - e per questo, tra i più complessi da padroneggiare. Esattamente il tipo di documentazione che metteva in crisi i sistemi precedenti: se srotoli l’intero regolamento dei contratti Ultra, serve la lunghezza di un campo di calcio per stenderlo a terra.

Roberto Felici, Head of Allianz Future Lab e inventore del prodotto Ultra, aveva già testato l'intuizione in proprio: un custom GPT con i documenti di prodotto caricati, abbastanza per validare che i modelli capissero qualcosa, non abbastanza per andare in produzione. Quella sperimentazione però aveva fatto qualcosa di più sottile: aveva permesso di vendere internamente l'idea, di raccogliere consenso e mostrare al management una direzione concreta prima ancora di avere un sistema reale.

Ci ha trovati su LinkedIn, ci ha messi alla prova con una MVP in due mesi, e in tre settimane avevamo fatto girare il prototipo. Da lì è partita la collaborazione.

Abbiamo lavorato in stealth per un anno e mezzo. Nessun annuncio, nessuna slide di lancio prima di avere qualcosa che reggesse davvero. Costruendo, testando, raccogliendo feedback, iterando. L'IT Forum 2026 è stata la prima volta che abbiamo raccontato il progetto pubblicamente - insieme a Roberto Felici, Head of Allianz Future Lab, l'uomo che aveva avuto l'intuizione originale.

Il risultato è un sistema multi-agente capace di navigare polizze complesse senza sbagliare quasi mai. Così preciso da aver superato un test interno ispirato al "test di Turing": a un set predefinito di domande hanno risposto sia gli assuntori umani sia UltraAI, confrontando accuratezza, stabilità e tempi di risposta. Messe a confronto le risposte quelle dell'AI sono state preferite nel 90% dei casi.

Perché ha funzionato

Non c'è un singolo motivo, ma ci sono elementi precisi che distinguono questo progetto da quelli che finiscono in purgatorio.

Il problema era giusto. La documentazione assicurativa complessa non era risolvibile con i metodi precedenti - non per mancanza di volontà, ma per limiti strutturali della tecnologia disponibile. La GenAI era la prima tecnologia abbastanza potente da affrontarla seriamente. L'intuizione di Roberto e del suo team è stata vedere questa finestra prima degli altri.

Nessuna scorciatoia sul prodotto. La distanza tra un PoC convincente e un sistema che non sbaglia davanti a decine di migliaia di persone è fatta di iterazioni silenziose, non di annunci. Chi costruisce per il pilota ottimizza per il pilota. Chi costruisce per la produzione fa scelte diverse dall'inizio.

L'architettura era pensata per scalare. La maggior parte dei progetti fallisce la transizione alla scala perché viene costruita per funzionare nel contesto controllato del pilota. Noi abbiamo progettato con i vincoli di produzione in mente dal giorno uno - e questo ha cambiato molte decisioni tecniche lungo il percorso.

Il benchmark era il processo umano, non un'astrazione. In un settore regolamentato come quello assicurativo, la soglia di affidabilità non poteva essere arbitraria. La domanda "da che percentuale di accuratezza possiamo andare in produzione?" non aveva risposta finché non abbiamo capovolto il problema: il benchmark è il workflow umano. Se la macchina batte gli assuntori - non solo la media del team, ma anche i più preparati, includendo la varianza delle risposte - allora è pronta. Questo "uovo di Colombo" ha sbloccato anche la questione legale: le risposte di UltraAI hanno oggi valore legale ufficiale per Allianz.

Il coraggio del cliente. Lavorare come startup - eravamo una ventina di persone - con un'organizzazione enterprise come Allianz richiede fiducia reciproca fuori dall'ordinario. Roberto e il suo team l'hanno data. Questo non è un dettaglio marginale: è spesso la variabile che decide se un progetto diventa prodotto o rimane esperimento.

Cosa dicono le persone che lo usano

I feedback dei consulenti che usano UltraAI ogni giorno sono il termometro più onesto:

"Ho a disposizione 24/7 un esperto instancabile di tutto il mio lavoro."

"Chiudo contratti più in fretta, e lo strumento mi forma mentre mi aiuta a preparare i meeting."

"Non riuscirei più a fare senza… come vivevamo prima?"

Tutti i dati riportati riguardano il copilot del prodotto Salute - un prodotto di nicchia, ad alto valore, ma non certo il più venduto- su cui oggi UltraAI gestisce 15-16.000 prompt al mese. Il copilot per il mondo auto è in arrivo, e da lì i volumi esploderanno.

Questa è la differenza tra AI che rimane in laboratorio e AI che cambia il modo in cui le persone lavorano. Non dipende dai modelli - quelli sono diventati commodity. Dipende dalla capacità di costruire qualcosa che le persone vogliono usare e che continua a funzionare quando smetti di guardarlo.

Il pilot purgatory non è un destino inevitabile. È il risultato di ottimizzare per le slide invece che per la produzione - di misurare il successo di un progetto AI su quanto impressiona in una demo, invece che su quanto cambia il lavoro di chi lo usa ogni giorno.

Non è l'AI che non funziona, ma tutto il resto. E "tutto il resto" si può costruire.

Simone Conversano - AI Transformation Specialist - Datapizza

Giacomo Ciarlini - CIO - Datapizza

Alfredo Petrella - AI Delivery Lead - Datapizza

Simone Mento - Lead AI Engineer - Datapizza