Non esiste un "miglior" agente di codifica AI — ed è esattamente questo il punto

TL;DR Abbiamo raccolto 7.156 pull request reali create da Codex, Claude Code, Cursor, Devin e Copilot, poi tagliato i dati per tipo di task. La sintesi: il divario tra la categoria di task migliore e peggiore è di 29 punti percentuali — molto più grande del divario tra agenti all’interno di una singola categoria. Codex è il generalista affidabile. Claude Code vince sulla documentazione. Cursor vince sui bug fix. Smetti di chiedere quale agente è il migliore. Inizia a chiedere migliore in cosa. La domanda sbagliata Entra in un qualunque Slack di engineering e troverai sempre lo stesso dibattito: Codex contro Claude Code contro Cursor contro Devin contro Copilot. I thread esplodono. Volano benchmark. Qualcuno screenshotta una leaderboard. ...

aprile 14, 2026 · 4 minuti · Giovanni Pinna

Quando gli agenti AI mentono sul proprio codice (senza volerlo)

TL;DR Abbiamo analizzato 23.247 pull request scritte da agenti di codifica AI e fatto una domanda semplice: la descrizione corrisponde al diff? Nell’1,7% dei casi, no. Sembra poco — finché non vedi le conseguenze. Le PR inconsistenti hanno un tasso di accettazione inferiore del 51,7% e impiegano 3,5× di tempo per essere mergiate. Il codice è a posto. Il problema è la storia che l’agente racconta sul codice. La parte di una PR che nessuno misura Quando facciamo benchmark sugli agenti di codifica AI, misuriamo il codice. Compila? Passa i test? È pulito? ...

aprile 14, 2026 · 5 minuti · Giovanni Pinna

A volte il tuo agente AI brucia più energia a ottimizzare il codice di quanta il codice ne risparmierà mai

TL;DR Gli agenti di codifica AI bruciano più di 100.000 token per task. Quando il task è “ottimizza le performance di questo codice”, l’agente in sé spesso costa più energia di quanta il codice ottimizzato ne risparmierà mai. Abbiamo costruito GA4GC — Greener Agent for Greener Code — usando NSGA-II per tunare la configurazione dell’agente contro tre obiettivi: correttezza del codice, speedup del codice e runtime dell’agente. Su un mini-SWE-agent alimentato da Gemini 2.5 Pro sul benchmark SWE-Perf, abbiamo ottenuto una riduzione del runtime del 37,7% migliorando anche la correttezza, con un miglioramento dell’hypervolume di 135× rispetto ai default. Bonus: la temperatura è la singola manopola più importante, e gli iperparametri dell’LLM controllano la qualità mentre i vincoli dell’agente controllano il costo — possono essere tunati quasi indipendentemente. Il paradosso energetico di cui nessuno parla Ecco una cosa che dovrebbe essere ovvia ma non lo è: quando chiedi a un agente AI di ottimizzare le performance del tuo codice, l’esecuzione dell’agente stesso costa energia. Tanta energia. Spesso più di quanta il codice che sta ottimizzando ne risparmierà mai. ...

ottobre 13, 2025 · 6 minuti · Giovanni Pinna

A volte la migliore feature engineering è buttare via le feature

TL;DR Classificare gli hotfix software — le patch in modalità panico che spedisci per riparare qualcosa che si è rotto in produzione adesso — è difficile per il ML: dataset minuscolo (88 entry, 17 categorie), sbilanciamento brutale tra le classi e feature LLM costose. HotCat riformula la feature engineering come un problema di ricerca: NSGA-II fa evolvere maschere binarie su 18 feature, ottimizzando accuratezza, NMI e runtime contemporaneamente. Una data augmentation a due stadi alza la generalizzazione dal 55% al 72%. La frontiera di Pareto offre una configurazione bilanciata: 59% accuratezza, 0,58 NMI, 129 secondi. La cosa più sorprendente: alcune feature fanno attivamente male — eliminarle è sia più veloce che più accurato. Gli hotfix non sono bug normali In un qualsiasi progetto software normale, i bug si accodano. Vengono triagiati, prioritizzati, schedulati negli sprint. Alcuni stanno lì per mesi. ...

ottobre 13, 2025 · 5 minuti · Giovanni Pinna

Il campo del Text-to-SQL ha un problema di misurazione

TL;DR Il text-to-SQL è ovunque, ma lo misuriamo male. Exact Match ti penalizza se scrivi users AS u. Execution Accuracy non si interessa se hai azzeccato 99 righe su 100 — sbagliato è sbagliato. Abbiamo costruito QAS (Query Accuracy Score): un punteggio continuo che combina similarità semantica code-aware (quanto è vicino il SQL?) con similarità di tabella basata su edit-distance (quanto è vicina la risposta?). Testato su 11 modelli su BIRD, QAS rivela differenze enormi che le metriche binarie schiacciano nello stesso numero. Un campo costruito su lanci di moneta Il text-to-SQL è una di quelle aree dove le demo sembrano magiche. Scrivi una domanda in italiano, ottieni una query SQL, ottieni una risposta dal tuo database. Niente DBA. La promessa è enorme. ...

luglio 2, 2025 · 6 minuti · Giovanni Pinna