GLM 5.2, l’IA chinoise, affronte Opus 4.8 et tourne sur sa propre infrastructure

04 juil. 2026

GLM 5.2, l’IA chinoise, affronte Opus 4.8 et tourne sur sa propre infrastructure

L’IA chinoise GLM 5.2 est arrivée pour dynamiser le marché des grands modèles de langage. La startup Z.ai a développé ce modèle et vise directement les tâches des programmeurs. De plus, ses performances se rapprochent de celles du Claude Opus 4.8 et du GPT 5.5. Ainsi, il convient de découvrir les détails techniques qui se cachent derrière cette nouveauté.

IA chinoise née pour les tâches longues de code

La Z.ai a présenté le GLM 5.2 le 16 juin. Le modèle est ainsi monté à la tête du portefeuille de l’entreprise. Il offre une fenêtre de contexte d’un million de tokens. De plus, il maintient cette fenêtre au cours de trajectoires longues d’agents de code. Ainsi, la proposition répond à des scénarios réels d’ingénierie. Des mois d’entraînement spécifiques ont façonné ce comportement. C’est pourquoi le modèle conserve une qualité élevée même dans des contextes étendus.

Architecture épurée et le truc IndexShare

Le GLM 5.2 utilise une architecture Mixture of Experts. Ainsi, il totalise environ 744 milliards de paramètres au total. Toutefois, seuls 40 milliards sont actifs par token. Ainsi, le coût d’inférence chute de manière significative. De plus, Z.ai a créé l’IndexShare. Cette fonctionnalité réutilise le même indexeur toutes les quatre couches d’attention éparse. En conséquence, le coût par token chute de 2,9 fois dans un contexte d’un million. De cette manière, la promesse d’un contexte long devient viable en pratique.

Benchmarks : l’IA chinoise s’approche du sommet fermé

Les chiffres racontent une histoire intéressante. Dans le Terminal Bench 2.1, le GLM 5.2 a obtenu 81,0 points. Pendant ce temps, le Opus 4.8 a atteint 85,0. Néanmoins, le modèle open source a dépassé le Gemini 3.1 Pro sans effort. Sur le SWE bench Pro, le score atteint 62,1. Par conséquent, il a surpassé le GPT 5.5, qui se situait à 58,6. De plus, le résultat a dépassé l’ancêtre GLM 5.1, qui enregistrait 58,4.

À présent, regardons les tâches à long terme. Dans FrontierSWE, le GLM 5.2 se retrouve à seulement 1 % derrière le Opus 4.8. En revanche, dans le SWE Marathon, l’écart passe à 13 %. Malgré tout, le modèle demeure le meilleur open source des trois tests. En d’autres termes, la suprématie des modèles ouverts apparaît de manière constante.

Effort control: vous décidez de combien le modèle réfléchit

Le GLM 5.2 propose des niveaux d’effort de raisonnement. Ainsi, vous choisissez entre les modes High et Max. Le mode Max privilégie les problèmes complexes et multi-étapes. Le mode High équilibre performance et latence. Ainsi, vous contrôlez la consommation de tokens selon la tâche. Dans l’API, le paramètre reasoning_effort définit ce comportement. De plus, le paramètre enable_thinking désactive le raisonnement lorsque vous privilégiez la vitesse.

Combien coûte faire tourner cette IA chinoise

Le prix apparaît comme le principal argument commercial. Directement chez Z.ai, l’entrée coûte 1,40 USD par million de tokens. Tandis que la sortie coûte 4,40 USD par million. De plus, des fournisseurs comme OpenRouter facturent encore moins, autour de 0,95 USD et 3,00 USD. Par conséquent, le GLM 5.2 est environ six fois moins cher que le GPT 5.5. De la même manière, il est environ cinq fois moins cher que l’Opus 4.8 pour des charges équivalentes. Le GLM Coding Plan démarre à 12,60 USD par mois pour un usage individuel. Toutefois, pendant les heures de pointe, la consommation de quota peut monter jusqu’à trois fois.

Rodar localement: ce que votre machine nécessite

La licence MIT ouvre la voie à l’hébergement autonome. Ainsi, vous utilisez, modifiez et commercialisez le modèle sans redevances. De plus, la quantification Dynamic 2.0 GGUF d’Unsloth aide considérablement. La version à 2 bits occupe 239 Go. Elle tient donc sur un Mac doté de 256 Go de mémoire unifiée. De même, un système avec une GPU de 24 Go et 256 Go de RAM peut faire tourner le modèle via l’offloading MoE. Quant à la version à 1 bit, elle occupe 223 Go de RAM. Ainsi, le niveau frontier sort du data center et rejoint votre configuration.

IA chinoise dans votre flux de travail

L’intégration s’est faite rapidement dans l’écosystème. Ainsi, le GLM 5.2 fonctionne sur ZCode, Claude Code, OpenCode et Kilo Code. De plus, le modèle est disponible sur HuggingFace et ModelScope. Sur Claude Code, vous activez le contexte d’un million avec le nom GLM 5.2[1m]. Par conséquent, l’adoption demande peu d’efforts de configuration. Ainsi, vous pouvez tester la nouveauté dès aujourd’hui.

Le point sensible: données et géopolitique

Voici la partie qui mérite attention. L’utilisation via l’API passe par des serveurs soumis à la législation chinoise. Par conséquent, les équipes manipulant des données sensibles évaluent ce risque avec prudence. Toutefois, les poids sous licence MIT changent ce paysage. Une fois téléchargé, le modèle peut fonctionner sur une infrastructure propre, loin de toute directive externe. Ainsi, l’hébergement local devient la réponse pour ceux qui accordent une priorité à la souveraineté des données.

Le message pour les programmeurs

Le GLM 5.2 marque un tournant important pour l’open source. Ainsi, le modèle offre des performances de pointe à coût réduit. De plus, il met entre les mains de n’importe quelle équipe 1 million de tokens de contexte. Par conséquent, l’IA chinoise élargit les options pour les développeurs du monde entier. En somme, il faut suivre de près les prochaines étapes de Z.ai.

Suivez notre profil sur Instagram!

Fabien Delpont

Auteur

Fabien Delpont

Fabien Delpont, développeur et créateur du site Python Doctor.