Claude Opus 4.8 : 4× moins d’erreurs et mode rapide 3× moins cher

A Anthropic lançou o Claude Opus 4.8 nesta quinta-feira. À primeira vista, parece só mais uma atualização incremental. No entanto, há uma mudança que merece atenção de quem programa. Afinal, o modelo agora avisa quando não tem certeza do que escreveu. Ou seja, ele para de fingir que está tudo certo.

Para o desenvolvedor, esse detalhe vale mais do que qualquer ponto a mais em benchmark. A seguir, vamos destrinchar o que muda na prática.

Claude : pourquoi un modèle qui doute de lui‑même vaut davantage pour les développeurs

Les modèles d’IA ont souvent une faiblesse dangereuse. Ils tirent des conclusions trop tôt. De plus, ils affirment avec assurance avoir résolu le problème, même lorsque les preuves sont faibles. Ce comportement génère du travail de retouche et des bugs silencieux.

Par conséquent, Anthropic a décidé d’attaquer justement ce point. Selon l’entreprise, l’Opus 4.8 signale des incertitudes plus fréquemment. Ainsi, il évite les affirmations qu’il ne peut pas étayer.

Le chiffre le plus notable apparaît dans les tests internes. En pratique, l’Opus 4.8 a environ quatre fois moins de chances de laisser des défauts passer inaperçus dans le code qu’il écrit lui‑même. Pour celles et ceux qui examinent des pull requests toute la journée, cela change la donne.

L’équipe d’alignement renforce également ce point. Selon le rapport, le modèle atteint de nouveaux pics dans des traits pro‑sociaux, comme le respect de l’autonomie de l’utilisateur. De plus, les taux de comportement non aligné ont fortement diminué par rapport à l’Opus 4.7.

Des centaines de sous‑agents en parallèle dans une seule session Claude

La fonctionnalité la plus ambitieuse s’appelle dynamic workflows. Elle arrive en aperçu de recherche dans Claude Code. Avec cela, Claude planifie d’abord la tâche. Ensuite, il déploie des centaines de sous‑agents en parallèle dans la même session.

Ensuite, le modèle vérifie ses propres résultats avant de faire rapport. Par exemple, il est capable de mener des migrations à l’échelle d’un codebase. On parle ici de centaines de milliers de lignes, du démarrage au merge. De plus, la suite de tests existante sert de critère d’approbation.

À noter ici. Cette fonctionnalité n’est disponible que sur les plans Enterprise, Team et Max. Néanmoins, elle indique vers où se dirige le travail axé sur les agents.

Désormais, vous décidez du degré de réflexion de Claude

Anthropic a ajouté un contrôle d’effort à côté du sélecteur de modèle. Ainsi, l’utilisateur détermine combien de travail Claude investit dans chaque réponse.

À des niveaux élevés, le modèle réfléchit avec plus de fréquence et de profondeur. Par conséquent, les réponses sont meilleures. À des niveaux faibles, il répond plus rapidement. En conséquence, il consomme moins rapidement la limite d’utilisation.

L’Opus 4.8 est par défaut en « high ». Cependant, il est possible de choisir « extra » ou « max » pour les tâches difficiles. Dans Claude Code, le niveau extra apparaît sous « xhigh ». Le contrôle est disponible sur tous les plans.

Les prompts système en cours de conversation, sans casser le cache

Cette nouveauté intéresse directement ceux qui construisent des agents. L’API Messages accepte désormais des entrées système au sein du tableau de messages.

Autrefois, mettre à jour les instructions de Claude en plein milieu de la tâche était laborieux. Désormais, vous mettez à jour sans casser le cache des invites. De plus, il n’est pas nécessaire de faire passer le changement par un tour d’utilisateur.

Concrètement, il est possible d’ajuster les autorisations, le budget de tokens ou le contexte d’environnement pendant que l’agent tourne. En d’autres termes, plus de contrôle précis sans bricolage.

Même prix, mode rapide trois fois moins cher

Maintenant, la partie qui concerne le budget. Le tarif d’utilisation standard reste identique à celui de l’Opus 4.7. En clair, 5 dollars par million de tokens d’entrée et 25 dollars par million de tokens de sortie.

Le mode rapide est également devenu plus accessible. Il tourne à 2,5 fois la vitesse normale. Et il coûte désormais trois fois moins cher que les modèles précédents. Dans ce mode, le tarif passe à 10 dollars en entrée et 50 dollars en sortie.

Ce qui vient après Opus

Anthropic indique déjà les prochaines étapes. Tout d’abord, l’entreprise travaille sur des modèles ayant une capacité similaire à Opus, mais moins coûteux.

En outre, il y a quelque chose de plus grand à l’horizon. Il s’agit du Claude Mythos Preview, une nouvelle catégorie de modèle plus intelligent que l’Opus. Pour l’instant, il est uniquement utilisé en cybersécurité, dans le cadre du Project Glasswing. En effet, les modèles de ce niveau exigent des garde-fous plus forts avant un déploiement à grande échelle. Selon l’entreprise, ce moment devrait arriver dans les prochaines semaines.

Cela vaut-il la mise à jour ?

Pour la plupart des équipes, oui. Le saut n’est pas révolutionnaire. Toutefois, la réduction des erreurs de code compense déjà cela. Ajoutez à cela le contrôle d’effort et le mode rapide moins cher. Le résultat est un collaborateur plus fiable au quotidien.

Et le meilleur : vous pouvez tester dès aujourd’hui. Il suffit d’utiliser le modèle claude-opus-4-8 via l’API Claude.

Acompanha nosso perfil no Instagram!

Claude Opus 4.8 : 4× moins d’erreurs et mode rapide 3× moins cher

Claude : pourquoi un modèle qui doute de lui‑même vaut davantage pour les développeurs

Des centaines de sous‑agents en parallèle dans une seule session Claude

Désormais, vous décidez du degré de réflexion de Claude

Les prompts système en cours de conversation, sans casser le cache

Même prix, mode rapide trois fois moins cher

Ce qui vient après Opus

Cela vaut-il la mise à jour ?

Python débutant

Python avancé

Django

Raspberry Pi

Actualités

Site