Agenti Di Codifica AI

Non esiste un "miglior" agente di codifica AI — ed è esattamente questo il punto

TL;DR Abbiamo raccolto 7.156 pull request reali create da Codex, Claude Code, Cursor, Devin e Copilot, poi tagliato i dati per tipo di task. La sintesi: il divario tra la categoria di task migliore e peggiore è di 29 punti percentuali — molto più grande del divario tra agenti all’interno di una singola categoria. Codex è il generalista affidabile. Claude Code vince sulla documentazione. Cursor vince sui bug fix. Smetti di chiedere quale agente è il migliore. Inizia a chiedere migliore in cosa. La domanda sbagliata Entra in un qualunque Slack di engineering e troverai sempre lo stesso dibattito: Codex contro Claude Code contro Cursor contro Devin contro Copilot. I thread esplodono. Volano benchmark. Qualcuno screenshotta una leaderboard. ...

Quando gli agenti AI mentono sul proprio codice (senza volerlo)

TL;DR Abbiamo analizzato 23.247 pull request scritte da agenti di codifica AI e fatto una domanda semplice: la descrizione corrisponde al diff? Nell’1,7% dei casi, no. Sembra poco — finché non vedi le conseguenze. Le PR inconsistenti hanno un tasso di accettazione inferiore del 51,7% e impiegano 3,5× di tempo per essere mergiate. Il codice è a posto. Il problema è la storia che l’agente racconta sul codice. La parte di una PR che nessuno misura Quando facciamo benchmark sugli agenti di codifica AI, misuriamo il codice. Compila? Passa i test? È pulito? ...

A volte il tuo agente AI brucia più energia a ottimizzare il codice di quanta il codice ne risparmierà mai

TL;DR Gli agenti di codifica AI bruciano più di 100.000 token per task. Quando il task è “ottimizza le performance di questo codice”, l’agente in sé spesso costa più energia di quanta il codice ottimizzato ne risparmierà mai. Abbiamo costruito GA4GC — Greener Agent for Greener Code — usando NSGA-II per tunare la configurazione dell’agente contro tre obiettivi: correttezza del codice, speedup del codice e runtime dell’agente. Su un mini-SWE-agent alimentato da Gemini 2.5 Pro sul benchmark SWE-Perf, abbiamo ottenuto una riduzione del runtime del 37,7% migliorando anche la correttezza, con un miglioramento dell’hypervolume di 135× rispetto ai default. Bonus: la temperatura è la singola manopola più importante, e gli iperparametri dell’LLM controllano la qualità mentre i vincoli dell’agente controllano il costo — possono essere tunati quasi indipendentemente. Il paradosso energetico di cui nessuno parla Ecco una cosa che dovrebbe essere ovvia ma non lo è: quando chiedi a un agente AI di ottimizzare le performance del tuo codice, l’esecuzione dell’agente stesso costa energia. Tanta energia. Spesso più di quanta il codice che sta ottimizzando ne risparmierà mai. ...