Les modèles de langage autoregressifs génèrent des tokens un par un. Ce processus séquentiel limite la vitesse des GPU et réduit le débit. Par conséquent, les environnements sensibles à la latence subissent des goulots d’étranglement constants. Désormais, NVIDIA présente une voie différente. Avec DFlash, la diffusion par blocs remplace le drafter autoregressif. Ainsi, le gain de vitesse peut atteindre jusqu’à 15 fois dans l’architecture Blackwell.
Pourquoi la décode séquentielle bloque l’inférence
Chaque token dépend du précédent dans ce modèle. Par conséquent, le GPU attend le résultat avant de continuer. Ce comportement crée des périodes d’inactivité sur le matériel. De plus, les flux multi-agents aggravent le problème. Lorsque l’IA passe d’un seul tour à des tâches coordonnées, la demande augmente. Ainsi, la latence par utilisateur devient un obstacle direct.
La décodification spéculative a ouvert la voie, mais a buté sur la limite
La décodification spéculative est apparue comme la première réponse. Dans ce schéma, un modèle léger génère des tokens futurs. Puis le modèle plus imposant vérifie tout en parallèle. Cependant, le drafter traditionnel continue de fonctionner de manière séquentielle. C’est pourquoi les coûts augmentent rapidement avec le volume. Cette limite freine la capacité totale du système.
Comment le DFlash remplace le drafter par diffusion de blocs
Le DFlash est un modèle de diffusion de blocs léger et ouvert. Il remplace complètement le drafter autoregressif. Plutôt que de générer des tokens individuels, il prévoit un bloc entier. Ainsi, le brouillon séquentiel devient une computation parallèle sur le GPU. Pendant ce temps, le modèle cible vérifie la sortie. De cette manière, la qualité reste intacte.
NVIDIA Blackwell : les chiffres qui prouvent le gain
Les tests ont été réalisés sur un système composé de huit cartes NVIDIA DGX B300. Le modèle gpt oss 120b a fonctionné avec TensorRT LLM. Pour mesurer les performances, l’équipe a utilisé l’ensemble SPEED Bench. En résultat, le DFlash a délivré un débit plus élevé. Dans les niveaux d’interactivité élevés, le gain est impressionnant. Dans ce scénario, il augmente le débit de plus de 15 fois sur Blackwell. De plus, le résultat dépasse de 1,5 fois l’EAGLE 3. Au point de faible concurrence, le modèle dépasse largement l’interactivité.
Pourquoi la Blackwell Ultra de NVIDIA se prête au draft parallèle
L’architecture Blackwell Ultra est directement compatible avec ce modèle parallèle. Tout d’abord, chaque GPU apporte deux dies à la taille d’un réticule. Ensuite, ils se connectent par une interconnexion de 10 Tbps. Ainsi, l’ensemble forme un domaine de calcul unifié. Au total, il réunit 160 streaming multiprocessors. De plus, il intègre 640 Tensor Cores de cinquième génération. Avec cela, le DFlash expose davantage d’opérations parallèles au NVFP4. Par conséquent, le système peut servir jusqu’à 15 fois plus d’utilisateurs simultanément.
Performance du DFlash sur des ensembles de données spécialisés
Les gains apparaissent sur différentes charges de travail. Dans le gpt oss 120b, le DFlash atteint 2,6 fois dans les tâches de codage. Pendant ce temps, l’EAGLE 3 se situe à 1,8 fois. En génération augmentée par récupération, le DFlash atteint 2,3 fois. En traitement multilingue, le gain monte à 2,6 fois. En moyenne, le modèle de 120 milliards atteint 2,3 fois. Le Llama 3.1 8B suit le même schéma. En codage, il délivre 3,0 fois contre 2,3 de l’EAGLE 3. De plus, la récupération atteint 3,1 fois. En moyenne générale, le modèle de 8 milliards atteint 2,8 fois.
Comment intégrer le DFlash dans vLLM et SGLang
L’équipe a publié 20 checkpoints du DFlash sur Hugging Face. Ils couvrent des familles telles que Qwen, Kimi K2.6, Llama, Gemma et gpt oss. Pour ceux qui utilisent vLLM, l’échange est simple. Concrètement, vous remplacez l’EAGLE 3 par un checkpoint DFlash. L’intégration s’effectue via la bibliothèque ouverte Speculators. Lors des tests avec Gemma 4 31B, le vLLM montre des gains nets. Le débit grimpe jusqu’à 5,8 fois par rapport au décodage standard. Sur l’ensemble Math500, l’augmentation atteint 5,8 fois. Quant au HumanEval, il enregistre 5,6 fois. Enfin, le GSM8K marque 5,3 fois.
Dans SGLang, le processus est similaire. Tout d’abord, vous mettez à jour l’algorithme vers le DFlash. Ensuite, il suffit de fournir le checkpoint correspondant. Sur Qwen3 8B avec une GPU B200, le gain atteint 5,1 fois. Dans les tâches Math500, l’avancée marque 5,1 fois. Quant au HumanEval, il se situe à 4,2 fois.
Les trois mécanismes derrière le DFlash
L’architecture interne repose sur trois mécanismes. Premièrement, le draft par diffusion prévoit plusieurs tokens en parallèle. Deuxièmement, le conditionnement extrait des caractéristiques du modèle cible. Troisièmement, l’injection de clé-valeur insère ces ressources dans le modèle préliminaire. Ce mécanisme maintient des taux d’acceptation élevés. Ainsi, le modèle cible ne s’occupe que de la validation finale. De cette manière, le système préserve la distribution d’origine. En même temps, il accélère l’ensemble de la séquence.
DFlash fonctionne sur tout le hardware de NVIDIA
Le DFlash propose une voie pratique pour faire évoluer l’inférence. Plutôt que d’accepter le goulot d’étranglement, vous gagnez un véritable parallélisme. De plus, les checkpoints ouverts fonctionnent sur l’ensemble du hardware NVIDIA. Ils bénéficient d’un support natif sur SGLang, vLLM et TensorRT LLM. Par conséquent, la barrière à l’entrée chute considérablement. Pour les équipes qui servent du code et des flux multi-agents, le gain est direct. Il est maintenant utile de tester le DFlash dans votre environnement.
Suivez notre profil sur Instagram !




