Les tunnels MCP, encore en pré-visualisation, sont arrivés. Ils permettent aux agents de se connecter à des bases internes sans passer par un point d’accès public. Le trafic est chiffré de bout en bout.
En seulement trois jours, le coût d’exploiter de l’intelligence de pointe a chuté brutalement. Trois lancements quasi simultanés ont réorganisé le marché. Pour ceux qui choisissent des outils, la donne n’est plus la même.
Voyons ce qui s’est passé. Puis, ce que cela signifie en pratique.
Trois lancements d’agents, en une semaine, et le prix qui n’a plus jamais été le même
Tout d’abord, Cursor a lancé le Composer 2.5 le 18 mai. Puis, le 19 mai, Anthropic a ouvert son premier événement européen destiné aux développeurs, Code with Claude London. Le même jour, Alibaba a mis en service l’API Qwen 3.7 Max.
Chacun de ces événements méritait une analyse isolée. Pris ensemble, ils ont touché un marché où les tarifsbaissaient déjà depuis des mois et les ont encore réduits.
Ce que la Cursor a apporté avec le Composer 2.5
Le Composer 2.5 est le modèle propriétaire de troisième génération de Cursor. De plus, il est construit sur la base ouverte Kimi K2.5, identique à celle qui équipa l’ancien modèle de mars. Cette fois, toutefois, il a été entraîné sur 25 fois plus de tâches synthétiques de codage.
L’entreprise a également dévoilé le nom du modèle de base de manière anticipée. En mars, d’ailleurs, l’absence de clarté à ce sujet avait suscité des critiques au sein de la communauté.
Passons aux chiffres, c’est là que les choses deviennent intéressantes. Le tarif standard est de 0,50 USD par million de jetons d’entrée et de 2,50 USD par million de jetons de sortie. Dans CursorBench v3.1, le Composer 2.5 atteint environ 63% de précision pour environ 0,50 USD par tâche. En comparaison, le Claude Opus 4.7 obtient une performance similaire pour environ 7 USD par tâche.
Autrement dit, la même capacité pour une fraction du coût, selon les propres mesures de Cursor. Il faut rester prudent face aux benchmarks fournis par les vendeurs. Cependant, la différence de prix est réelle.
Ce que Anthropic a apporté à Londres
Anthropic n’a pas coupé les prix. Au contraire, elle s’est attaquée à un autre verrou : ce qui empêche les équipes d’entreprise de déployer des agents à grande échelle. En résumé, le problème résidait dans la fuite des données hors du périmètre de l’entreprise.
C’est pourquoi ont émergé des environnements de test auto-hébergés, désormais en bêta publique. Avec eux, les équipes exécutent les Agents Gérés de Claude sur leur propre infrastructure. La boucle d’orchestration reste du côté d’Anthropic. Toutefois, le code s’exécute, les fichiers sont enregistrés et les appels réseau se déroulent dans l’environnement du client.
Cependant, il existe des réserves importantes. Ces environnements restent en bêta et ne sont pas en disponibilité générale. Les tunnels MCP, quant à eux, affichent une mention explicite de “comment ils se présentent” dans la documentation. Par conséquent, ceux qui exigent une garantie de stabilité aujourd’hui ne constituent pas encore le public visé.
Ce que Alibaba met en jeu avec les Agents
L’API Qwen 3.7 Max a été lancée au sein du Alibaba Cloud Model Studio le 19 mai. Curieusement, le modèle est fermé. Cela marque un tournant : Alibaba avait l’habitude de publier des poids ouverts avec des API hébergées. Jusqu’à présent, aucun poids n’est apparu sur Hugging Face.
Le tarif est de 2,50 USD par million de jetons d’entrée et 7,50 USD par million de jetons de sortie. Il existe aussi une remise de 90 % sur les jetons d’entrée mis en cache, ce qui ramène le coût à 0,25 USD par million. Selon l’Index de l’Intelligence d’Artificial Analysis, la plateforme obtient 56,6 points. Dans le SWE-Bench vérifié, le score est de 72,5.
Mais il y a une subtilité pratique. Le « raisonnement étendu » est activé par défaut. Par conséquent, le modèle devient bavard lors de sessions prolongées. Des développeurs rapportent des coûts effectifs de trois à quatre fois le tarif annoncé, à moins que le max_tokens ne soit restreint manuellement.
Enfin, un détail intéresse ceux qui utilisent Claude Code. Le Qwen 3.7 Max prend en charge le protocole Anthropic Messages de façon native. Il s’insère donc dans une architecture Claude Code existante sans réécrire la logique d’intégration.
Alors, quel agent choisir maintenant ?
L’effet global peut être résumé simplement. La puissance de pointe bénéficie désormais de plusieurs tarifs compétitifs, pas seulement d’un seul. Il y a six mois, faire tourner un agent compétent exigeait de payer des tarifs équivalents à Opus ou d’accepter une forte diminution de qualité. Aujourd’hui, ce choix est plus complexe. Et c’est une bonne chose.
Pour autant, un jeton bon marché ne garantit pas un meilleur résultat. Le coût réel se décompose en trois éléments. D’abord, le prix du jeton. Ensuite, le travail nécessaire pour examiner la sortie de l’agent. Enfin, la surcharge de gestion dans le cadre de la sécurité et de la conformité.
Autrement dit, un modèle peu coûteux ne vaut le coup que si l’écart est faible et faciles à inspecter. La documentation de Cursor le rappelle explicitement. D’ailleurs, cette réserve vaut pour les trois lancements.
Enfin, l’option choisie par Alibaba mérite une attention comme signal stratégique. Opter pour un modèle fermé, destiné au développeur d’entreprise, plutôt que pour l’open source, indique une modification des intentions. Si le Qwen 3.7 Max parvient à maintenir sa position après des tests indépendants, cela reste à voir. Mais l’intention a bel et bien changé.
Conclusion
En somme, cette semaine n’a pas apporté uniquement de nouveaux modèles. Elle a offert des options tarifaires là où il n’y en avait pratiquement qu’une. Pour le développeur, le moment exige des essais pratiques plutôt qu’une fidélité à une marque. Évaluez le coût total, et pas seulement le nombre de jetons. Puis, prenez votre décision en fonction de vos propres benchmarks.
Suivez notre profil sur Instagram !




