MSR

TL;DR Abbiamo raccolto 7.156 pull request reali create da Codex, Claude Code, Cursor, Devin e Copilot, poi tagliato i dati per tipo di task. La sintesi: il divario tra la categoria di task migliore e peggiore è di 29 punti percentuali — molto più grande del divario tra agenti all’interno di una singola categoria. Codex è il generalista affidabile. Claude Code vince sulla documentazione. Cursor vince sui bug fix. Smetti di chiedere quale agente è il migliore. Inizia a chiedere migliore in cosa. La domanda sbagliata Entra in un qualunque Slack di engineering e troverai sempre lo stesso dibattito: Codex contro Claude Code contro Cursor contro Devin contro Copilot. I thread esplodono. Volano benchmark. Qualcuno screenshotta una leaderboard. ...

Non esiste un "miglior" agente di codifica AI — ed è esattamente questo il punto

Quando gli agenti AI mentono sul proprio codice (senza volerlo)