Le prix du token s'effondre. Votre facture d'IA va exploser.
Note exécutive TokenShift

Le coût unitaire de l'IA chute à une vitesse vertigineuse. Selon le AI Index 2025 de Stanford, le coût d'inférence pour un niveau « GPT-3.5 » a baissé d'environ 280× en dix-huit mois. Des modèles ouverts affichent des performances proches de la frontière à environ un dixième du coût des leaders propriétaires.
La conclusion tentante — « l'IA est devenue bon marché, le coût n'est plus un sujet » — est un piège de COMEX. Car au même moment, votre facture d'IA, elle, va exploser. Pas malgré la baisse des prix : à cause de la manière dont l'IA agentique consomme.
Le token est la nouvelle unité — de coût et de risque
Une réponse de chatbot, c'est quelques milliers de tokens. Un agent autonome, c'est tout autre chose : des boucles multi-étapes, un contexte relu à chaque tour, des reprises sur erreur, des sous-agents en chaîne. La consommation de tokens ne suit pas la taille de la réponse — elle suit le degré d'autonomie. Résultat : coût unitaire en baisse, volume en hausse non linéaire. L'addition devient imprévisible.
Un token bon marché ne fait pas un résultat bon marché
Un token coûte une fraction de centime ; une hallucination, elle, coûte cher — en reprise, en réputation, en responsabilité juridique. Un agent doté d'un accès budgétaire et d'autonomie peut faire déraper la dépense sans qu'aucun humain ne soit dans la boucle. Gartner anticipe que plus de 40 % des projets d'IA agentique seront abandonnés d'ici fin 2027. La dépense en tokens n'est pas une ligne comptable, c'est un risque opérationnel.
FinOps de l'IA : gouvernez le token, pas le modèle
La discipline à installer existe déjà ailleurs : c'est le FinOps, transposé à l'IA. On ne pilote pas un coût agentique « en moyenne » ni « au global » — on le gouverne workflow par workflow :
- un budget et un plafond par agent et par workflow ;
- une observabilité en temps réel de la consommation ;
- des alertes et un coupe-circuit quand la dépense dérape.
4 questions FinOps-IA pour votre COMEX
- Connaissons-nous le coût en tokens de notre principal workflow par exécution, pas en moyenne ?
- Chaque agent a-t-il un budget et un plafond explicites ?
- Avons-nous une observabilité temps réel de la consommation ?
- Qui peut couper une dépense qui s'emballe — et en combien de temps ?
Un token n'a jamais été aussi bon marché. Et l'addition n'a jamais été aussi imprévisible.
Et chez vous : connaissez-vous le coût en tokens de votre principal workflow IA — par exécution, pas en moyenne ?