
Lessons from Testing Contextual Retrieval on Multiple Datasets
We tested Contextual Retrieval across multiple datasets to understand whether it still improves RAG systems in 2026, compared to base retrieval and modern rerankers. Here's what we found

Lessons from Testing Contextual Retrieval on Multiple Datasets
We tested Contextual Retrieval across multiple datasets to understand whether it still improves RAG systems in 2026, compared to base retrieval and modern rerankers. Here's what we found

Claude Code: perché tutti ne parlano?
Oggi vi vorrei parlare di Claude Code senza filtri. E non vedevo l’ora.

Cosa abbiamo imparato testando la Contextual Retrieval su diversi dataset
Abbiamo testato la Contextual Retrieval su diversi dataset per capire se nel 2026 migliora davvero i sistemi RAG, confrontandola con il retrieval base e con l’aggiunta di reranker moderni. Ecco cosa abbiamo scoperto

Datapizza Salaries: quanto vale davvero il tuo lavoro?
In Datapizza abbiamo fatto una cosa che, nel tech italiano, sembra ancora radicale e devo assolutamente parlarne.

Claude Opus 4.5 e lo stato della GenAI
Neanche il tempo di abituarci a Gemini 3 Pro, che Anthropic ha rilanciato con un nuovo modello di Claude… e cavolo se c’è roba da dire!

Nano Banana Pro e NotebookLM: Google è inarrestabile
C’è una bomba AI che Google ha rilasciato settimana scorsa di cui non ti ho ancora parlato - Nano Banana Pro - e non è tutto!

Gemini 3: tutte le novità
Pochi giorni fa Google ha rilasciato finalmente Gemini 3 e Antigravity. E devo assolutamente parlartene, perché la sostanza è parecchia!

AI Transformation Advisor: una guida pratica al ruolo
In questi giorni ho pubblicato una guida sull’AI Transformation Advisor, che ti consiglio caldamente di leggere per capire in che direzione sta andando la trasformazione che stiamo vivendo.

RAG Evaluation: Using Claude Skills to craft a truly challenging Q&A set
To truly evaluate a RAG system, public benchmarks aren’t enough—you need datasets that reflect real-world difficulty, including multi-hop questions, wide reasoning, and heterogeneous knowledge bases. In this article, we show how we designed a char-based, chunk-agnostic framework with easy/medium difficulty levels and human validation, leveraging Claude Skills and LLM retrievers to generate questions, answers, and evidence spans. The result is a public dataset based on D&D SRD 5.2.1 (plus two internal datasets), built for reproducible and comparable RAG pipeline testing.