Blog | Giovanni Pinna

Non esiste un "miglior" agente di codifica AI — ed è esattamente questo il punto

TL;DR Abbiamo raccolto 7.156 pull request reali create da Codex, Claude Code, Cursor, Devin e Copilot, poi tagliato i dati per tipo di task. La sintesi: il divario tra la categoria di task migliore e peggiore è di 29 punti percentuali — molto più grande del divario tra agenti all’interno di una singola categoria. Codex è il generalista affidabile. Claude Code vince sulla documentazione. Cursor vince sui bug fix. Smetti di chiedere quale agente è il migliore. Inizia a chiedere migliore in cosa. La domanda sbagliata Entra in un qualunque Slack di engineering e troverai sempre lo stesso dibattito: Codex contro Claude Code contro Cursor contro Devin contro Copilot. I thread esplodono. Volano benchmark. Qualcuno screenshotta una leaderboard. ...

Quando gli agenti AI mentono sul proprio codice (senza volerlo)

TL;DR Abbiamo analizzato 23.247 pull request scritte da agenti di codifica AI e fatto una domanda semplice: la descrizione corrisponde al diff? Nell’1,7% dei casi, no. Sembra poco — finché non vedi le conseguenze. Le PR inconsistenti hanno un tasso di accettazione inferiore del 51,7% e impiegano 3,5× di tempo per essere mergiate. Il codice è a posto. Il problema è la storia che l’agente racconta sul codice. La parte di una PR che nessuno misura Quando facciamo benchmark sugli agenti di codifica AI, misuriamo il codice. Compila? Passa i test? È pulito? ...

A volte il tuo agente AI brucia più energia a ottimizzare il codice di quanta il codice ne risparmierà mai

TL;DR Gli agenti di codifica AI bruciano più di 100.000 token per task. Quando il task è “ottimizza le performance di questo codice”, l’agente in sé spesso costa più energia di quanta il codice ottimizzato ne risparmierà mai. Abbiamo costruito GA4GC — Greener Agent for Greener Code — usando NSGA-II per tunare la configurazione dell’agente contro tre obiettivi: correttezza del codice, speedup del codice e runtime dell’agente. Su un mini-SWE-agent alimentato da Gemini 2.5 Pro sul benchmark SWE-Perf, abbiamo ottenuto una riduzione del runtime del 37,7% migliorando anche la correttezza, con un miglioramento dell’hypervolume di 135× rispetto ai default. Bonus: la temperatura è la singola manopola più importante, e gli iperparametri dell’LLM controllano la qualità mentre i vincoli dell’agente controllano il costo — possono essere tunati quasi indipendentemente. Il paradosso energetico di cui nessuno parla Ecco una cosa che dovrebbe essere ovvia ma non lo è: quando chiedi a un agente AI di ottimizzare le performance del tuo codice, l’esecuzione dell’agente stesso costa energia. Tanta energia. Spesso più di quanta il codice che sta ottimizzando ne risparmierà mai. ...

A volte la migliore feature engineering è buttare via le feature

TL;DR Classificare gli hotfix software — le patch in modalità panico che spedisci per riparare qualcosa che si è rotto in produzione adesso — è difficile per il ML: dataset minuscolo (88 entry, 17 categorie), sbilanciamento brutale tra le classi e feature LLM costose. HotCat riformula la feature engineering come un problema di ricerca: NSGA-II fa evolvere maschere binarie su 18 feature, ottimizzando accuratezza, NMI e runtime contemporaneamente. Una data augmentation a due stadi alza la generalizzazione dal 55% al 72%. La frontiera di Pareto offre una configurazione bilanciata: 59% accuratezza, 0,58 NMI, 129 secondi. La cosa più sorprendente: alcune feature fanno attivamente male — eliminarle è sia più veloce che più accurato. Gli hotfix non sono bug normali In un qualsiasi progetto software normale, i bug si accodano. Vengono triagiati, prioritizzati, schedulati negli sprint. Alcuni stanno lì per mesi. ...

Il campo del Text-to-SQL ha un problema di misurazione

TL;DR Il text-to-SQL è ovunque, ma lo misuriamo male. Exact Match ti penalizza se scrivi users AS u. Execution Accuracy non si interessa se hai azzeccato 99 righe su 100 — sbagliato è sbagliato. Abbiamo costruito QAS (Query Accuracy Score): un punteggio continuo che combina similarità semantica code-aware (quanto è vicino il SQL?) con similarità di tabella basata su edit-distance (quanto è vicina la risposta?). Testato su 11 modelli su BIRD, QAS rivela differenze enormi che le metriche binarie schiacciano nello stesso numero. Un campo costruito su lanci di moneta Il text-to-SQL è una di quelle aree dove le demo sembrano magiche. Scrivi una domanda in italiano, ottieni una query SQL, ottieni una risposta dal tuo database. Niente DBA. La promessa è enorme. ...