Non esiste un "miglior" agente di codifica AI — ed è esattamente questo il punto

TL;DR Abbiamo raccolto 7.156 pull request reali create da Codex, Claude Code, Cursor, Devin e Copilot, poi tagliato i dati per tipo di task. La sintesi: il divario tra la categoria di task migliore e peggiore è di 29 punti percentuali — molto più grande del divario tra agenti all’interno di una singola categoria. Codex è il generalista affidabile. Claude Code vince sulla documentazione. Cursor vince sui bug fix. Smetti di chiedere quale agente è il migliore. Inizia a chiedere migliore in cosa. La domanda sbagliata Entra in un qualunque Slack di engineering e troverai sempre lo stesso dibattito: Codex contro Claude Code contro Cursor contro Devin contro Copilot. I thread esplodono. Volano benchmark. Qualcuno screenshotta una leaderboard. ...

aprile 14, 2026 · 4 minuti · Giovanni Pinna

Quando gli agenti AI mentono sul proprio codice (senza volerlo)

TL;DR Abbiamo analizzato 23.247 pull request scritte da agenti di codifica AI e fatto una domanda semplice: la descrizione corrisponde al diff? Nell’1,7% dei casi, no. Sembra poco — finché non vedi le conseguenze. Le PR inconsistenti hanno un tasso di accettazione inferiore del 51,7% e impiegano 3,5× di tempo per essere mergiate. Il codice è a posto. Il problema è la storia che l’agente racconta sul codice. La parte di una PR che nessuno misura Quando facciamo benchmark sugli agenti di codifica AI, misuriamo il codice. Compila? Passa i test? È pulito? ...

aprile 14, 2026 · 5 minuti · Giovanni Pinna

A volte il tuo agente AI brucia più energia a ottimizzare il codice di quanta il codice ne risparmierà mai

TL;DR Gli agenti di codifica AI bruciano più di 100.000 token per task. Quando il task è “ottimizza le performance di questo codice”, l’agente in sé spesso costa più energia di quanta il codice ottimizzato ne risparmierà mai. Abbiamo costruito GA4GC — Greener Agent for Greener Code — usando NSGA-II per tunare la configurazione dell’agente contro tre obiettivi: correttezza del codice, speedup del codice e runtime dell’agente. Su un mini-SWE-agent alimentato da Gemini 2.5 Pro sul benchmark SWE-Perf, abbiamo ottenuto una riduzione del runtime del 37,7% migliorando anche la correttezza, con un miglioramento dell’hypervolume di 135× rispetto ai default. Bonus: la temperatura è la singola manopola più importante, e gli iperparametri dell’LLM controllano la qualità mentre i vincoli dell’agente controllano il costo — possono essere tunati quasi indipendentemente. Il paradosso energetico di cui nessuno parla Ecco una cosa che dovrebbe essere ovvia ma non lo è: quando chiedi a un agente AI di ottimizzare le performance del tuo codice, l’esecuzione dell’agente stesso costa energia. Tanta energia. Spesso più di quanta il codice che sta ottimizzando ne risparmierà mai. ...

ottobre 13, 2025 · 6 minuti · Giovanni Pinna