Anthropic admet : Claude écrit déjà plus de code que les humains

10 juin 2026

Anthropic admet : Claude écrit déjà plus de code que les humains

Anthropic vient de publier un rapport qui met en perspective le degré d’avancement de l’automatisation du code au sein même de ses murs. En mai 2026, plus de 80 % du code intégré à la base de production de l’entreprise avait été écrit par Claude. Le chiffre est passé d’un seul chiffre à deux chiffres depuis le lancement de Claude Code, en février 2025. Autrement dit, en un peu plus d’un an, le modèle est passé d’un simple outil d’assistance à l’auteur principal du logiciel de l’entreprise.

Mais le point le plus révélateur du document n’est pas le chiffre lui-même. C’est le ton avec lequel Anthropic le décrit.

Anthropic: De assistante à architecte: ce que montrent les données

Au deuxième trimestre de 2026, les ingénieurs d’Anthropic ont livré huit fois plus de code par trimestre que ce qu’ils livraient entre 2021 et 2025. Ainsi, le bond de productivité n’est pas marginal, il est structurel.

Dans une enquête interne menée auprès de 130 chercheurs, la médiane indiquait une production quatre fois plus élevée en utilisant Mythos Preview (le modèle le plus avancé de l’entreprise) par rapport au travail sans IA. De plus, dans les tâches d’ingénierie les plus complexes et les moins précisément définies, Claude a atteint un taux de réussite de 76 % en mai 2026, soit une augmentation de 50 points en pourcentage en seulement six mois.

Un exemple concret du rapport illustre bien cette montée: lorsque une mise à jour courante bloquait des milliers de tâches en cours, un ingénieur a demandé l’aide de Claude. En deux heures, le modèle a trouvé une configuration cachée qui causait l’erreur, a testé la défaillance et résolu le problème. Un travail qui aurait normalement nécessité deux à trois jours à un professionnel humain.

Quand le modèle commence à faire de la recherche, pas seulement du code

Le rapport décrit une expérience d’avril 2026 qui va au-delà de l’ingénierie logicielle. Neuf agents parallèles ont travaillé sur un projet de sécurité de l’IA de bout en bout, sans supervision continue. Sur environ 800 heures accumulées et environ 18 000 dollarsUS de calcul, les agents ont comblé 97 % de l’écart de performance dans la tâche. Deux chercheurs humains, travaillant pendant une semaine, ont rattrapé 23 %.

Ainsi, le déplacement ne concerne pas seulement la ligne de code. Il s’étend aussi à la ligne de raisonnement scientifique.

Un autre test mesurait la capacité de Claude à choisir la « prochaine étape » la plus adaptée lors de sessions réelles de recherche. En novembre 2025, le modèle a devancé le jugement du chercheur humain dans 51 % des situations. En avril 2026, ce chiffre est monté à 64 %. Cependant, les progrès dans cette direction restent ce qui préoccupe le plus les auteurs du document.

Les trois scénarios que l’Anthropic ne veut pas ignorer

Le rapport, rédigé par Marina Favaro et Jack Clark de l’Anthropic Institute, décrit trois futurs possibles pour cette trajectoire.

Dans le premier, la tendance s’amenuise, mais les capacités actuelles reconfigurent déjà l’économie mondiale du développement logiciel. Dans le deuxième, le développement de l’IA devient substantiellement automatisé alors que les humains continuent de définir la direction de la recherche. Ce qui permettrait à des entreprises de 100 personnes d’effectuer le travail d’organisations comptant 100 000. Dans le troisième scénario, les modèles atteignent ce que l’on appelle l’auto-optimisation récursive complète et commencent à concevoir leurs propres successeurs.

Sur ce troisième point, Anthropic avoue textuellement ne pas avoir « de bonnes intuitions ». Et cela, venant de l’entreprise qui conçoit les modèles, n’est pas une petite remarque.

Auto-optimisation récursive: pourquoi le terme compte pour les devs

Pour ceux qui travaillent dans l’ingénierie logicielle, le concept d’auto-amélioration récursive a des implications pratiques. Fondamentalement, cela signifie qu’un modèle entraîné avec du code généré par des versions antérieures de lui-même peut amplifier à la fois ses capacités et les erreurs d’alignement de génération d’une génération à l’autre.

Ainsi, des défaillances rares et contrôlables aujourd’hui peuvent s’accumuler jusqu’à ce que le contrôle devienne invivable. Le rapport avertit que ce décalage peut devenir « de plus en plus fréquent. Mais de moins en moins compris » au fil du temps.

C’est exactement le type de problème que ni un lint ni une suite de tests ne résout seul.

La proposition de pause, et pourquoi elle est difficile à mettre en œuvre

Pour faire face à ce risque, le document propose un mécanisme de pause vérifiable et coordonné entre des laboratoires de pointe en différents pays. L’analogie utilisée est explicitement celle du contrôle des armes nucléaires.

Anthropic reconnaît les limites de l’idée. Une pause unilatérale ne changerait que celui qui mène la course. Ce qui est proposé, c’est un accord selon lequel plusieurs laboratoires accepteraient de faire une pause dans les mêmes conditions et s’en vérifieraient mutuellement le respect.

Le problème technique est sérieux : l’entraînement d’un modèle d’IA est bien plus difficile à détecter que le test d’un missile. De plus, l’incitatif économique à violer un tel accord est considérable, surtout sur un marché de l’IA pour le code qui représente déjà des dizaines de milliards de dollars.

Ce qui revient à ceux qui développent des logiciels aujourd’hui

Il faut noter que les données présentées sont auto-déclarées par Anthropic et n’ont pas été auditées de manière indépendante. Le rapport a été publié quelques jours après que l’entreprise ait déposé une demande d’introduction en bourse. Contexte pertinent pour toute lecture critique des chiffres.

Cela dit, même avec ce filtre, la trajectoire décrite est cohérente avec ce que grande partie de la communauté des développeurs observe déjà dans la pratique. Des outils comme Claude Code ont modifié les flux de travail de manière concrète. Par conséquent, la question que soulève le rapport n’est pas de savoir si l’IA va écrire plus de code. Elle est de savoir si le rythme du changement permet aux institutions, aux pratiques de sécurité et aux développeurs eux-mêmes de suivre ce qui est en train de se construire.

Et cette question, pour l’instant, reste sans réponse claire.

Ainsi, suivez notre profil sur Instagram !

Fabien Delpont

Auteur

Fabien Delpont

Fabien Delpont, développeur et créateur du site Python Doctor.