Les tokens ne sont pas gratuits : ce que le faux pas d’Uber en IA nous apprend

30 mai 2026

Les tokens ne sont pas gratuits : ce que le faux pas d’Uber en IA nous apprend

Uber vient d’admettre quelque chose d’inconfortable. Les dépenses liées à l’intelligence artificielle deviennent difficiles à justifier. Et le vilain porte le nom: tokens.

Le message provient d’Andrew Macdonald, président et COO de l’entreprise. Il s’est exprimé dans une interview accordée au programme Rapid Response. Selon le dirigeant, la facture des tokens a augmenté beaucoup trop rapidement. Cependant, les résultats n’ont pas suivi le rythme.

Pour ceux qui développent des logiciels, ce cas va au-delà des ragots d’entreprise. En effet, il met en lumière un problème technique qui va frapper à votre porte. Il est donc utile de comprendre ce qui est en jeu.

Uber a consommé tout le budget d’IA pour l’année en mars

Passons aux chiffres, car ils font peur. Le directeur technologique d’Uber, Praveen Neppalli Naga, a révélé une donnée surprenante: l’entreprise a dépensé, à la mi-mars, tout le budget IA prévu pour 2026.

Autrement dit, il ne restait plus neuf mois et aucun centime n’était prévu. Une grande partie de cet argent a été consacrée à des outils comme Claude Code. L’adoption en interne a explosé ces derniers mois. Cependant, la facture a elle aussi explosé.

Macdonald résume le dilemme avec franchise. Pour lui, l’IA n’est pas gratuite. Et si l’entreprise n’arrive pas à relier ces dépenses à des livraisons utiles, la facture devient difficile à défendre.

En fin de compte, qu’est-ce qu’un token et pourquoi coûte-t-il autant ?

Peut-être que vous utilisez l’IA tous les jours sans jamais vous être arrêté pour y penser. Commençons donc par l’essentiel. Le token est l’unité fondamentale de données d’un modèle de langage. En d’autres termes, c’est le petit morceau de texte que le modèle lit et génère.

Chaque mot devient un ou plusieurs tokens. Chaque réponse consomme des tokens d’entrée et de sortie. Ainsi, plus vous dialoguez, plus la facture est élevée.

Voici le détail qui échappe à beaucoup: vous payez pour les tokens que vous envoyez et pour ceux que vous recevez. Donc, un prompt gigantesque coûte cher avant même l’arrivée de la réponse.

Pourquoi les tokens sont devenus le nouveau centre de coût dans l’ingénierie

Uber se définit aujourd’hui comme une entreprise d’ingénierie. Ainsi, il est logique qu’elle ait accueilli Claude Code avec enthousiasme. Cependant, l’enthousiasme a un coût.

Macdonald reconnaît que peut-être l’entreprise déploie davantage de ressources. En creux, quelque chose s’est amélioré. Mais il manque une ligne directe. Il aurait aimé voir, par exemple, 25 % de fonctionnalités livrées en plus. Ce chiffre n’est pas apparu de manière claire.

Et Uber n’est pas seule face à ce doute.

Microsoft a serré la vis avant tout le monde

Microsoft elle-même avait déjà pris le premier pas. Récemment, elle a annulé des licences de Claude Code utilisées en interne. L’objectif était d’économiser. De plus, elle souhaitait privilégier ses outils internes.

Remarquez le motif. Deux géants de la technologie, sur une même période, réduisent les dépenses liées aux tokens. Ce n’est pas une coïncidence.

Pendant ce temps, DeepSeek fait chuter les prix

Tous ne suivent pas la même règle. DeepSeek, une entreprise chinoise, a choisi de prendre le chemin inverse. Elle a annoncé une réduction agressive et définitive du prix de l’API. L’objectif est clair: s’emparer du marché face à ses rivales.

Pour le développeur, cette lutte est une excellente nouvelle. Après tout, un token moins cher signifie plus d’espace pour expérimenter. Néanmoins, il faut rappeler que trop bon marché peut aussi receler des pièges.

Les optimistes continuent de parier gros

Tout le monde n’adhère pas au discours pessimiste. Jeff Bezos, par exemple, soutient cette vague actuelle d’investissements. Pour lui, il est utile de financer de nombreux projets importants en même temps.

Sam Altman, de OpenAI, a suivi une autre ligne. Il a comparé les dépenses des systèmes d’IA au coût de la vie d’un être humain au cours de sa vie. L’idée est simple: l’intelligence a toujours coûté cher.

Comment écrire du code qui n’épuise pas les tokens à tort et à travers

Assez de théorie. Passons à l’essentiel de votre quotidien. La bonne nouvelle est qu’il est possible de réduire les coûts sans perdre en qualité.

Tout d’abord, limitez vos prompts. Le contexte inutile devient un token payé. Envoyez donc seulement ce qui est nécessaire.

Ensuite, réutilisez le contexte via le cache lorsque l’outil le permet. Ainsi, vous évitez de renvoyer la même information à chaque fois.

Puis, choisissez le bon modèle pour chaque tâche. Tout n’a pas besoin du modèle le plus cher. Par exemple, les tâches simples peuvent fonctionner correctement avec des modèles plus petits.

De plus, limitez la taille des réponses. Définissez un plafond de tokens de sortie. Ainsi, le modèle n’écrira pas un roman quand un paragraphe aurait suffi.

Enfin, mesurez tout. Suivez la consommation par tâche, par équipe et par fonctionnalité. Sans métrique, vous répétez l’erreur d’Uber.

La leçon qui vaut plus que l’effroi

Le cas Uber n’est pas une question d’abandonner l’IA. Macdonald, d’ailleurs, n’est pas sceptique quant à l’avenir. Il croit que les prochains trimestres pourraient clarifier la situation.

Le message réel est autre. Le token est une ressource, et une ressource se gère. Par conséquent, traiter l’IA comme une magie gratuite est le chemin le plus rapide vers le rouge.

Pour ceux qui programment, voici l’invitation. Commencez à regarder le token comme vous regardez n’importe quel autre coût d’infrastructure. À la fin, celui qui mesure économise. Et celui qui économise survit au prochain bilan.

Acompagnez notre profil sur Instagram !

Fabien Delpont

Auteur

Fabien Delpont

Fabien Delpont, développeur et créateur du site Python Doctor.