Costo Agentes IA: Impuesto Estocástico que Quema Dinero

En 2025, auditorías a 8 despliegues en producción de agentes de IA revelaron que entre el 35% y el 45% de los tokens procesados se desperdician en fallas arquitectónicas, un fenómeno bautizado como “Stochastic Tax”. En un caso concreto, un agente de seguros gastó $12 en inferencia para aprobar un reclamo de $50, procesando 47.000 tokens con una latencia de 8.3 segundos. Ese es el costo agentes IA que no aparece en los balances.

En 30 segundos

  • 40% de presupuesto desperdiciado: Según Piyoosh Rai, hasta un 40% del presupuesto de inferencia de un agente se pierde en “churn probabilístico”.
  • El caso del seguro de $50: Un agente aprobó un reclamo usando 47.000 tokens y gastando $12, cuando la decisión era simple.
  • 3 fallas clave: Los desperdicios nacen de bucles infinitos, re-summarización del contexto y tool calls alucinados.
  • Se puede cortar de raíz: Implementando salidas determinísticas, enrutamiento por niveles de modelo y snapshots contextuales.

El problema: tu agente de IA está quemando dinero sin que lo sepas

Ponele que tenés un agente de atención al cliente integrado a tu CRM. Resuelve el 80% de las consultas automáticamente, un golazo. Pero cuando revisás la factura de la API de OpenAI o Anthropic, los números no cierran. Gastás el triple de lo presupuestado. ¿Qué pasó? Tenés un caso severo de Stochastic Tax.

El Stochastic Tax es el costo adicional e imprevisto que surge de la naturaleza probabilística de los Large Language Models (LLMs). No es un bug, es un feature (o más bien, un side-effect). Cada decisión que toma el agente se samplea de una distribución de probabilidad, y eso falla feo a partir del tercer paso en una secuencia compleja. El problema es que el modelo no “sabe” cuándo parar, no rastrea lo que ya intentó y no recuerda contexto fuera de su ventana actual.

El resultado, según una auditoría de Piyoosh Rai, es que un 40% del presupuesto de inferencia se va a procesar acciones redundantes. Es como pagarle a un empleado para que repita la misma tarea 10 veces porque se olvidó que ya la hizo.

Anatomía del Stochastic Tax: por qué tu IA no sabe cuándo parar

Imaginate que le pedís a alguien que resuelva un problema, pero esa persona tiene amnesia cada 5 minutos. Cada vez que le das una nueva pieza de información, tiene que re-leer toda la historia desde el principio para entender el contexto, y encima a veces decide volver a preguntar por datos que ya le diste. Eso hace un agente mal diseñado.

Los LLMs no tienen memoria persistente nativa. Su contexto es la ventana de tokens que procesan en cada turno. Cuando la tarea requiere múltiples pasos, el agente tiene que re-ingestionar y re-procesar todo el historial de la conversación para cada nueva decisión. Esa re-summarización constante es uno de los mayores focos de desperdicio.

A eso se le suman dos fallas más. Primero, los bucles infinitos: el agente llama a la misma herramienta (por ejemplo, una búsqueda en base de datos) siete veces porque no registra que la respuesta no va a cambiar. Segundo, los tool calls alucinados: el modelo invoca una función que no existe, falla, y en lugar de cortar, reintenta o genera una excusa, quemando tokens en el proceso.

El caso real: un agente de seguros que gastó $12 en una decisión de $50

Para entender la magnitud, desglosemos el ejemplo concreto que cita Piyoosh Rai en su análisis. Un agente debía decidir si aprobaba un reclamo de seguro de $50 por una receta médica. La operación parecía simple, pero el proceso fue un derroche.

Paso 1: El agente consulta los detalles de la póliza (get_policy_details). Procesa 3.200 tokens. Hasta ahí, todo bien. Paso 2: Resume la información y decide el siguiente paso. Usa 5.800 tokens. Paso 3: Verifica la prescripción (check_prescription). Otros 3.400 tokens. Ahora viene la estupidez: en el Paso 4, el agente re-sumariza toda la conversación desde el inicio, gastando 8.200 tokens en reprocesar contexto que ya tenía. Esos son tokens de pura pérdida.

Finalmente, en el Paso 5, obtiene los detalles de cobertura (get_coverage_details) con 3.600 tokens más. Total: 47.000 tokens y $12 de costo computacional. El Paso 4 representa el 17% de los tokens usados en una tarea que, con una arquitectura más inteligente, habría necesitado la mitad.

Las 3 fallas arquitectónicas que generan el 40% de desperdicio

Las auditorías a implementaciones en producción identifican tres patrones recurrentes que, combinados, explican la mayor parte del Stochastic Tax.

1. Bucles infinitos de herramientas

El agente entra en un ciclo donde invoca la misma función repetidamente. Por ejemplo, una búsqueda en base de datos (query_database) que devuelve “resultado no encontrado”. El LLM, sin una memoria de intentos fallidos, vuelve a llamarla con un prompt ligeramente diferente. Se observaron casos de hasta 7 llamadas idénticas en una sola ejecución.

2. Re-summarización compulsiva

En cada nuevo paso, el modelo procesa todo el historial de la conversación para “entender” el contexto. Si la tarea tiene 10 pasos, el paso 10 procesa la información de los pasos 1 al 9, que ya había procesado en el paso 9, y así sucesivamente. Es una redundancia exponencial que escala mal.

3. Tool calls alucinados y reintentos

El LLM genera una llamada a una herramienta que no existe en su toolbox. El sistema falla. En lugar de devolver un error claro y cortar, el agente intenta “arreglar” el problema reformulando la llamada o pidiendo disculpas al usuario (sí, en serio), todo mientras consume tokens.

Soluciones: cómo cortar el sangrado de tokens

El diagnóstico es claro, pero lo que importa es el remedio. Tres estrategias concretas pueden reducir el desperdicio hasta en un 70%, según los mismos datos de auditoría.

Salidas determinísticas (deterministic exits)

La idea es simple: no dejes que el LLM decida cuándo parar. Implementá una regla hardcodeada que corte la ejecución apenas se alcance la condición de éxito. En el caso del seguro, si el agente ya tiene la respuesta “aprobar” después del Paso 3, que no pase por un Paso 4 de “reflexión”. Cerrás el circuito. Esto elimina los “pasos fantasma” donde el modelo genera un turno adicional innecesario.

Enrutamiento por niveles de modelo (tiered model routing)

No todos los pasos requieren el modelo más caro. Para planificación compleja, usá GPT-4 o Claude Opus. Para extraer datos de un JSON, formatear una respuesta o hacer un resumen simple, un modelo “mini” como GPT-3.5-turbo o Haiku alcanza. Según un análisis de Forbes Argentina, estos modelos más livianos pueden dar el 80% de la calidad al 10-20% del precio. El aorro es brutal.

Snapshots contextuales para matar la re-summarización

En lugar de re-procesar todo el historial, guardá un “snapshot” del estado ya procesado después de cada paso. Cuando llegue el nuevo turno, solo se le pasa al modelo la información nueva + el snapshot, no toda la conversación desde cero. Esta técnica, descrita por Skywork AI, es la que tiene mayor impacto en reducir tokens, eliminando de raíz el desperdicio del Paso 4 del ejemplo.

Work-slop: cuando la mala implementación de IA genera el efecto inverso

Todo esto conecta con un concepto que está ganando tracción: el “work-slop”. Como explica iProfesional, ocurre cuando automatizás un proceso que ya estaba mal diseñado. La IA solo hace que el error ocurra más rápido y a mayor escala. Muchas empresas argentinas, en la carrera por “meter IA”, implementan agentes sin una estrategia clara, sin métricas de costo por decisión, y terminan generando costos ocultos que no aparecen en los balances pero se sienten en los equipos y en los resultados.

La pregunta “¿dónde metemos IA?” a veces debería responderse con “en ningún lado, hasta que sepamos qué queremos lograr y cómo medirlo”.

Esto se vincula con nuestro análisis en The Stochastic Tax: Why Your AI Agent Is a Financial Liabili sobre el costo real de los agentes.

Si querés profundizar, cubrimos el tema en The Stochastic Tax: Why Your AI Agent Is a Financial Liabili.

Esto se conecta con The Stochastic Tax: Why Your AI Agent Is a Financial Liabili donde cubrimos el tema en detalle.

Esto está directamente conectado con lo que cubrimos en The Stochastic Tax: Why Your AI Agent Is a Financial Liabili.

Esto se conecta con The Stochastic Tax: Why Your AI Agent Is a Financial Liabili, donde cubrimos el aspecto financiero en detalle.

Esto conecta directamente con The Stochastic Tax: Why Your AI Agent Is a Financial Liabili, donde profundizamos en el costo financiero real de los agentes IA.

Si querés profundizar en esto, tenemos un análisis detallado en The Stochastic Tax: Why Your AI Agent Is a Financial Liabili.

Esto se vincula con The Stochastic Tax: Why Your AI Agent Is a Financial Liabili, donde profundizamos en los costos reales de los agentes.

Esto lo desarrollamos a fondo en The Stochastic Tax: Why Your AI Agent Is a Financial Liabili, donde analizamos los costos reales.

Si querés entender mejor esto, tenemos The Stochastic Tax: Why Your AI Agent Is a Financial Liabili donde lo analizamos en detalle.

Si querés ir más al fondo del asunto, en The Stochastic Tax: Why Your AI Agent Is a Financial Liabili profundizamos en los costos reales.

Errores comunes que debés evitar

  • No medir el costo por interacción: Lanzás un agente y mirás la métrica de “consultas resueltas”, pero no calculás cuánto te costó resolver cada una. Sin ese dato, no podés optimizar.
  • Usar el modelo más potente para todo: Le mandás GPT-4 para que formatee una lista en JSON. Es como usar un Ferrari para ir a la esquina. Segmentá por complejidad.
  • No implementar timeouts ni límites de pasos: Si no le ponés un freno mecánico al agente, puede entrar en un loop que dure horas y te facture por ello. Un máximo de 5-7 pasos por ejecución suele ser razonable.
  • Ignorar la latencia acumulada: Cada paso agrega segundos. Un agente de 10 pasos puede tardar 30 segundos en responder, destruyendo la experiencia de usuario. Optimizar por costo casi siempre mejora la velocidad.

Tabla comparativa: tipos de desperdicio y su impacto

Tipo de FallaMecanismo% Estimado del DesperdicioSolución Principal
Bucles infinitosLlamadas repetidas a la misma herramienta15-20%Salidas determinísticas y límites de reintentos
Re-summarizaciónRe-procesamiento completo del historial en cada paso50-60%Snapshots contextuales
Tool calls alucinadosInvocación de funciones inexistentes y reintentos10-15%Validación estricta de esquemas antes de la llamada

Preguntas Frecuentes

¿Por qué mi agente de IA gasta más de lo esperado?

La causa principal es el “Stochastic Tax”: hasta un 40% del presupuesto se pierde en procesamiento redundante, como bucles infinitos o re-summarizaciones innecesarias del contexto. Tu agente no sabe cuándo parar y repite trabajo constantemente.

¿Cuánto dinero se desperdicia en agentes de IA mal configurados?

Auditorías en 2025 muestran que entre el 35% y el 45% de los tokens procesados son desperdiciados por fallas arquitectónicas. En un caso documentado, un agente gastó $12 en inferencia para tomar una decisión valuada en $50.

¿Cómo reducir el costo de tokens en agentes de IA?

Tres estrategias clave: 1) Implementar salidas determinísticas para cortar ejecuciones innecesarias, 2) Usar modelos más livianos para tareas simples (enrutamiento por niveles), y 3) Usar snapshots contextuales para evitar re-procesar toda la conversación en cada paso.

¿Por qué los agentes de IA entran en bucles infinitos?

Porque los LLMs no tienen memoria persistente de sus intentos fallidos fuera de la ventana de contexto actual. Si una herramienta devuelve “no encontrado”, el agente puede volver a llamarla sin registrar que ya lo intentó, creando un ciclo que consume tokens sin fin.

Conclusión

El Stochastic Tax no es un problema teórico, es un agujero financiero real en los presupuestos de IA de 2026. La diferencia entre un agente rentable y uno que quema plata no está en el modelo base, sino en la arquitectura que lo orquesta. Ignorar estos costos ocultos es como tener un auto con una pérdida de combustible permanente: funciona, pero te está empobreciendo a cada kilómetro.

La buena noticia es que las soluciones son concretas y efectivas. Medir el costo por decisión, implementar frenos mecánicos y usar el modelo correcto para cada subtarea puede reducir el desperdicio a menos del 10%. La IA generativa es una herramienta poderosa, pero como cualquier herramienta, requiere mantenimiento, precisión y, sobre todo, que sepas cuánto te está costando usarla.

Fuentes

Desplazarse hacia arriba