Retour aux analyses
Gouvernance IA2 min

Le prix du token s'effondre. Votre facture d'IA va exploser.

Note exécutive TokenShift

Le prix du token s'effondre. Votre facture d'IA va exploser.

Le coût unitaire de l'IA chute à une vitesse vertigineuse. Selon le AI Index 2025 de Stanford, le coût d'inférence pour un niveau « GPT-3.5 » a baissé d'environ 280× en dix-huit mois. Des modèles ouverts affichent des performances proches de la frontière à environ un dixième du coût des leaders propriétaires.

La conclusion tentante — « l'IA est devenue bon marché, le coût n'est plus un sujet » — est un piège de COMEX. Car au même moment, votre facture d'IA, elle, va exploser. Pas malgré la baisse des prix : à cause de la manière dont l'IA agentique consomme.

Le token est la nouvelle unité — de coût et de risque

Une réponse de chatbot, c'est quelques milliers de tokens. Un agent autonome, c'est tout autre chose : des boucles multi-étapes, un contexte relu à chaque tour, des reprises sur erreur, des sous-agents en chaîne. La consommation de tokens ne suit pas la taille de la réponse — elle suit le degré d'autonomie. Résultat : coût unitaire en baisse, volume en hausse non linéaire. L'addition devient imprévisible.

Un token bon marché ne fait pas un résultat bon marché

Un token coûte une fraction de centime ; une hallucination, elle, coûte cher — en reprise, en réputation, en responsabilité juridique. Un agent doté d'un accès budgétaire et d'autonomie peut faire déraper la dépense sans qu'aucun humain ne soit dans la boucle. Gartner anticipe que plus de 40 % des projets d'IA agentique seront abandonnés d'ici fin 2027. La dépense en tokens n'est pas une ligne comptable, c'est un risque opérationnel.

FinOps de l'IA : gouvernez le token, pas le modèle

La discipline à installer existe déjà ailleurs : c'est le FinOps, transposé à l'IA. On ne pilote pas un coût agentique « en moyenne » ni « au global » — on le gouverne workflow par workflow :

  • un budget et un plafond par agent et par workflow ;
  • une observabilité en temps réel de la consommation ;
  • des alertes et un coupe-circuit quand la dépense dérape.

4 questions FinOps-IA pour votre COMEX

  • Connaissons-nous le coût en tokens de notre principal workflow par exécution, pas en moyenne ?
  • Chaque agent a-t-il un budget et un plafond explicites ?
  • Avons-nous une observabilité temps réel de la consommation ?
  • Qui peut couper une dépense qui s'emballe — et en combien de temps ?

Un token n'a jamais été aussi bon marché. Et l'addition n'a jamais été aussi imprévisible.

Et chez vous : connaissez-vous le coût en tokens de votre principal workflow IA — par exécution, pas en moyenne ?

Continuer la lecture

Voir toutes les analyses