Datapizza Blog

Blog

RAG Evaluation: Using Claude Skills to craft a truly challenging Q&A set

To truly evaluate a RAG system, public benchmarks aren’t enough—you need datasets that reflect real-world difficulty, including multi-hop questions, wide reasoning, and heterogeneous knowledge bases. In this article, we show how we designed a char-based, chunk-agnostic framework with easy/medium difficulty levels and human validation, leveraging Claude Skills and LLM retrievers to generate questions, answers, and evidence spans. The result is a public dataset based on D&D SRD 5.2.1 (plus two internal datasets), built for reproducible and comparable RAG pipeline testing.

13/11/2025

Evaluation per RAG: usare Claude Skills per progettare un dataset Q&A di livello avanzato

Evaluation per RAG: usare Claude Skills per progettare un dataset Q&A di livello avanzato

Per valutare davvero una RAG non bastano i benchmark pubblici: servono dataset che riflettano difficoltà reali come domande multi-hop, wide e knowledge base eterogenee. In questo articolo mostriamo come abbiamo progettato un framework char-based, chunk-agnostic, con livelli easy/medium e controllo umano, e come usiamo Claude Skills e LLM retriever per generare domande, risposte e passaggi. Il risultato è un dataset pubblico basato su D&D SRD 5.2.1 (più due dataset interni) pensato per testing riproducibile e comparabile di diverse pipeline di RAG.

La strada verso l'AGI: a che punto siamo?

In questi giorni è uscito un paper molto figo (e molto serio) sull’AGI e volevo parlartene.

Rifiutiamo l'AI per motivi di performance o principio? Cosa dice Harvard

Uno studio di Harvard si è chiesto quali siano le principali resistenze all'AI nel proprio lavoro e sono uscite cose molto interessanti.

10 anni per gli agenti AI avanzati: Karpathy ha ragione?

Questo weekend ho ascoltato un'intervista a Andrej Karpathy, in cui ha raccontato la sua visione sugli agenti AI e sul futuro dell'intelligenza artificiale.

Ottobre 2025: a che punto siamo con l’AI?

Un po’ di giorni fa, è stato rilasciato il report “State of AI 2025”. Si tratta di un report rilasciato ogni anno a Ottobre, che è diventato un riferimento importante per avere un punto della situazione sull’evoluzione dell’AI. 🙌

Tre grandi novità da OpenAI, ma in Europa dovremo aspettare

Lunedì si è tenuto il DevDay, il momento annuale in cui OpenAI annuncia le novità per gli sviluppatori.

Meta colpisce ancora: ecco i nuovi occhiali

Pochi giorni fa c’è stato il Meta Connect 2025, l’evento annuale dove l’azienda annuncia diverse novità legate a realtà virtuale, realtà aumentata e AI.

Come usiamo (davvero) l’AI? Ecco cosa dicono i dati

Ti sei mai chiesto come le persone utilizzino l’AI? 🤔

18/09/2025