Anthropic prouve que l’IA peut transformer un patch en exploit en 1 heure

Chez Anthropic, l’équipe a testé son modèle Claude Mythos Preview face à des vulnérabilités réelles de Windows et de Firefox, et les résultats modifient ce que nous savons sur la sécurité après l’application des correctifs.

Anthropic : Quand le remède devient poison, le patch qui enseigne l’attaque

Pendant longtemps, la logique de la sécurité a été simple : publier le patch et le problème est résolu. C’est pourquoi Anthropic a décidé d’examiner ce postulat de manière systématique, et les résultats s’avèrent suffisamment perturbants pour influencer les pratiques d’équipes entières.

L’entreprise a utilisé son modèle Claude Mythos Preview pour automatiser un processus que les chercheurs humains mettent des jours ou des semaines à accomplir. Lors de tests en conditions contrôlées, le modèle a transformé des corrections publiques en exploits fonctionnels en quelques heures. Dans certains cas, en moins d’une heure.

Qu’est-ce que les N-days, et pourquoi sont-ils plus importants que les zero-days

Avant d’entrer dans les chiffres, il convient de comprendre le concept central de l’étude. Contrairement aux zero-days (falises inconnues et sans patch), les N-days désignent des vulnérabilités déjà corrigées par le fournisseur, mais qui restent exploitables sur des systèmes où la mise à jour n’a pas encore été appliquée.

La fenêtre entre la publication du patch et son déploiement sur les systèmes est appelée lacune de mise à jour. C’est précisément dans cet intervalle que se produisent les attaques. Anthropic soutient que les N-days expliquent une grande partie des dommages cybernétiques réels, précisément parce que de nombreux systèmes restent non mis à jour pendant des jours, des semaines ou des mois.

Noyau Windows : 18 preuves de concept en moins de 6 heures

Les tests sur le noyau Windows couvraient 21 vulnérabilités. Mythos Preview a généré des preuves de concept d’exploitation pour 18 d’entre elles, toutes réalisées en moins de six heures. Le plus rapide a pris 31 minutes.

De plus, le modèle a élaboré huit chaînes d’exploitation complètes, permettant d’élever les privilèges d’un utilisateur courant au niveau SYSTEM. Le coût total des huit chaînes s’élevait à environ 15 700 dollars américains en crédits API, soit en moyenne environ 2 000 dollars par exploitation.

Un détail important : le modèle a opéré sans code source. Il a utilisé des binaires compilés, des symboles de débogage publics, la sortie de Ghidra et l’avis officiel de Microsoft. En gros, le même matériel accessible à n’importe quel attaquant après la publication d’un CVE.

Microsoft avait classé 14 des 21 vulnérabilités comme “Exploitation peu probable” ou “Exploitation peu probable”. Mythos Preview a généré des crashs de preuves de concept pour 13 des 14.

Firefox : la première exploitation avant que le patch n’arrive à l’utilisateur

Le test sur Firefox a analysé 18 correctifs dans le moteur JavaScript SpiderMonkey. Le modèle a reçu le diff public du code, le nom du composant et la classification de gravité de Mozilla, rien de plus que ce qu’un attaquant ayant accès à Internet aurait.

Le résultat : 14 preuves de concept de crashes générées, dont huit ont évolué vers des exploits permettant l’exécution arbitraire de code.

Le premier exploit sur Firefox a été prêt en moins d’une heure. À ce moment-là, la version stable du navigateur avec le correctif était encore à 18 jours de sa sortie. Autrement dit, l’exploit existait avant que la majorité des utilisateurs puissent se protéger.

Anthropic : Pourquoi cela modifie le concept de « fenêtre sûre »

Historique, les recherches montraient que les exploits N-days mettaient des semaines à apparaître. WannaCry, par exemple, est apparu 59 jours après que Microsoft ait publié le correctif MS17-010 en 2017. Une analyse de Mandiant de 2020 a montré que 16 des 25 vulnérabilités étudiées nécessitaient un mois ou plus pour être exploitées.

Par conséquent, des cycles de patch gérés, comme Windows Autopatch, qui déploient les mises à jour à 90 % des appareils en sept jours, semblaient suffisants.

Le problème est que Mythos Preview a conclu les huit chaînes d’exploitation avant ce délai de sept jours.

Le modèle public aussi peut le faire, six fois avec un taux plus faible

Un point sur lequel Anthropic insiste : les modèles Claude publics, avec les garde-fous désactivés, ont aussi été capables de générer des exploits. Les taux de réussite étaient inférieurs à ceux du Mythos Preview, mais le constat démontre que le problème n’est pas l’apanage d’un seul modèle expérimental restreint.

Cela change la nature de la menace. Autrefois, la préoccupation concernait des attaquants hautement spécialisés. Désormais, une partie de la barrière technique peut être automatisée par des modèles disponibles commercialement.

Ce que les équipes de développement et de sécurité peuvent faire maintenant – Anthropic

Anthropic n’a pas publié cette recherche simplement pour provoquer l’alarme. En plus des résultats, l’entreprise indique des pistes concrètes :

Déploiement plus rapide des correctifs demeure la réponse la plus directe. Plus la lacune de mise à jour est courte, plus la surface d’attaque est réduite.

Langages memory-safe, tels que Rust, éliminent des classes entières de vulnérabilités avant même qu’elles existent. L’entreprise présente cela comme une solution structurelle à long terme.

Des mitigations comme le Control Flow Guard et les shadow stacks matériels retirent des catégories d’exploits même lorsque des bogues existent. Réduisant l’impact des vulnérabilités non corrigées.

La leçon centrale est donc la suivante : la sécurité post-patch ne peut plus être considérée comme un état stable. Le temps autrefois disponible pour les tests, les validations et le déploiement géré est comprimé, non pas par des attaquants humains plus rapides, mais par l’automatisation.

Contexte et limites de l’étude

Les tests ont été menés dans des environnements contrôlés, avec des vulnérabilités déjà corrigées. Il n’y a pas eu d’attaques contre des systèmes de production. Anthropic reconnaît aussi que générer un exploit n’est qu’une étape : la découverte de la cible, la livraison, la persistance et l’évasion demandent encore du travail supplémentaire.

Pour autant, l’étude établit une nouvelle référence. Le développement d’exploits, qui constituait une barrière importante pour les attaquants disposant de ressources restreintes, devient de plus en plus accessible grâce à l’automatisation.

Aceptons ce défi et suivez notre profil sur Instagram !

Anthropic prouve que l’IA peut transformer un patch en exploit en 1 heure

Anthropic : Quand le remède devient poison, le patch qui enseigne l’attaque

Qu’est-ce que les N-days, et pourquoi sont-ils plus importants que les zero-days

Noyau Windows : 18 preuves de concept en moins de 6 heures

Firefox : la première exploitation avant que le patch n’arrive à l’utilisateur

Anthropic : Pourquoi cela modifie le concept de « fenêtre sûre »

Le modèle public aussi peut le faire, six fois avec un taux plus faible

Ce que les équipes de développement et de sécurité peuvent faire maintenant – Anthropic

Contexte et limites de l’étude

Python débutant

Python avancé

Django

Raspberry Pi

Actualités

Site