Tool Calls en Claude: el costo que no ves venir

Usar herramientas en la API de Claude tiene un costo oculto que la mayoría no ve hasta que llega la factura. Los costos de las herramientas en la API de Claude van mucho más allá de los tokens que genera el modelo: cada definición de tool, cada overhead de bash o computer use, y cada búsqueda web suman antes de que el agente haga una sola cosa útil.

En 30 segundos

  • Bash tool agrega +245 tokens de overhead por llamada; computer use llega a +466-499 tokens extra
  • Un agente con 5 servidores MCP puede consumir 55.000 tokens antes de ejecutar cualquier tarea
  • Tool Search reduce el consumo hasta un 95% al cargar herramientas on-demand en vez de todas de golpe
  • Programmatic Tool Calling logra 37% menos tokens en workflows complejos al orquestar desde Python sin round-trips a la API
  • El cambio de billing a finales de 2025 (de flat-rate a usage-based) generó incrementos de hasta 50x en costos reportados por usuarios desde febrero de 2026

Anthropic es una empresa de investigación en inteligencia artificial fundada en 2021 por exmiembros de OpenAI. Desarrolla modelos de lenguaje como Claude y se dedica a la investigación sobre seguridad e interpretabilidad de sistemas de IA.

Qué es Tool Use y Function Calling en IA

Tool use (también llamado function calling) es el mecanismo que permite a Claude interactuar con APIs externas, bases de datos, sistemas de archivos y herramientas de terceros durante una conversación. En términos simples: es lo que transforma a Claude de un generador de texto en un agente que puede hacer cosas.

Ponele que le pedís a Claude que revise el estado de tu pipeline de CI/CD y te informe si hay errores. Sin tool use, te da una respuesta genérica. Con tool use, llama a la API de GitHub Actions, lee los logs reales, y te devuelve el stacktrace exacto. Esa capacidad es el “cerebro operativo” de los agentes IA modernos.

El problema es que cada herramienta que habilitás tiene un costo en tokens, y ese costo existe antes de que Claude haga cualquier cosa útil.

El Costo Oculto de Tool Use en Claude

Acá viene lo bueno (o lo malo, dependiendo de tu factura): los costos de las herramientas en la API de Claude tienen dos capas que mucha gente confunde.

La capa visible es el output: los tokens que Claude genera como respuesta. Eso lo ves directamente en el dashboard. La capa oculta son las definiciones de herramientas y el overhead de sistema que se consume en cada llamada, aunque el modelo no use esa herramienta en particular.

Overhead por tipo de herramienta

Según la documentación de ingeniería de Anthropic, los números concretos son estos:

  • Bash tool: +245 tokens de overhead por definición
  • Computer use: entre +466 y +499 tokens adicionales
  • Web search: USD 10 por cada 1.000 búsquedas (tarifa separada de los tokens)

Ahora multiplicá eso. Un agente con 5 servidores MCP activos consume aproximadamente 55.000 tokens de contexto antes de ejecutar cualquier instrucción real. Si estás pagando las tarifas de Claude Sonnet, eso son varios dólares que se fueron en setup. Más contexto en diferencias de costo entre proveedores.

¿Y qué pasa cuando tenés un agente que carga 20 herramientas “por las dudas”? Exacto: estás pagando por todas las definiciones en cada turno, aunque el modelo use solamente dos.

Advanced Tool Use: Tool Search como Solución

Anthropic publicó a mediados de abril de 2026 una funcionalidad llamada Tool Search dentro de su framework de Advanced Tool Use. La idea es sencilla pero el impacto es grande: en vez de cargar todas las definiciones de herramientas al inicio del contexto, el agente busca dinámicamente cuáles necesita según la tarea en curso.

Los datos de un caso real que documentaron son llamativos: 191.000 tokens con la carga tradicional contra 122.000 tokens usando Tool Search. Eso es una reducción del 36% en ese ejemplo. En setups con muchas herramientas el ahorro escala más: Anthropic reporta hasta 95% de reducción en tokens de definiciones.

El tradeoff es una latencia marginalmente mayor en la primera llamada (el agente tarda un poco más en “buscar” qué herramienta necesita). Para la mayoría de los casos de uso ese costo adicional de latencia es irrelevante frente al ahorro en tokens.

Cuándo tiene sentido usar Tool Search: cuando tenés más de 10-15 herramientas disponibles, cuando los agentes no siempre saben de antemano cuáles van a necesitar, o cuando tus workflows cambian mucho entre ejecuciones. Si tu agente siempre usa las mismas 3 herramientas, cargarlas directamente sigue siendo lo más simple.

Programmatic Tool Calling: Orquestación Eficiente

Otra técnica de Advanced Tool Use es Programmatic Tool Calling (PTC). La diferencia con el tool use estándar es que acá escribís Python que orquesta múltiples herramientas de forma directa, sin necesitar un round-trip a la API de Claude para cada paso intermedio.

En la práctica: imaginá que tenés un workflow que necesita leer un archivo, procesarlo, hacer una consulta SQL, y enviar un email. Con tool use estándar, Claude hace una llamada por herramienta, esperando respuesta cada vez. Con PTC, podés encadenar esas operaciones en código Python ejecutado localmente, y Claude solo recibe el resultado final. Ya lo cubrimos antes en cómo cobran por tokens ahora.

Según los datos de Anthropic, PTC logra 37% de reducción de tokens en workflows complejos. El tradeoff es la ejecución sandboxed: el código corre en un entorno aislado, lo que da seguridad pero limita ciertos accesos al sistema. Si tu workflow necesita interactuar con recursos del sistema operativo de forma directa, PTC puede tener fricción adicional.

Dicho esto, para pipelines de datos, procesamiento batch, o automatizaciones con lógica predecible, PTC es de lo más eficiente que hay.

La Controversia de Billing 2026: Qué Cambió

Este es el tema que más generó ruido en la comunidad de developers este año.

A finales de 2025, Anthropic pasó de un modelo de precios enterprise relativamente predecible (planes de USD 200/mes con tope) a un esquema completamente usage-based: costo por tokens más USD 20 por usuario activo. El cambio en sí no es inusual para el sector, pero el impacto para equipos que usaban agentes con tool use intensivo fue brutal.

A partir de febrero de 2026, usuarios en Reddit y Hacker News reportaron aumentos de hasta 50x en sus costos mensuales, según el análisis de Mindstudio sobre la controversia de billing. El mecanismo es simple: si antes pagabas un flat-rate y tus agentes consumían mucho overhead de tool definitions, ese costo estaba oculto en el precio fijo. Con pricing por token, todo eso aparece en la factura.

La controversia se complicó además con el bloqueo de OpenClaw y otros clientes de terceros que emulaban el comportamiento de Claude sin pasar por los mecanismos oficiales. Anthropic implementó detección de “harness” (frameworks que envuelven la API para simular comportamiento adicional), lo que obligó a muchos equipos a migrar a la SDK oficial o rediseñar sus integraciones. (¿Transparente para los usuarios que pagaban esos planes? No del todo.)

Estrategias Prácticas para Reducir Costos

La buena noticia es que hay técnicas concretas que funcionan. No son magia, pero aplicadas bien pueden cambiar significativamente tu factura.

Prompt caching

Si tus agentes tienen system prompts largos o contextos de herramientas que se repiten entre llamadas, Anthropic ofrece prompt caching con 90% de descuento en los tokens cacheados. Para agentes con tool use intensivo, esto solo puede reducir costos a la mitad en muchos casos.

Batch API

Para tareas que no necesitan respuesta inmediata, la Batch API da 50% de descuento. Si estás procesando datos en lotes o generando contenido en bulk, esto es lo primero que tenés que activar. Complementá con cambios recientes en modelos de Anthropic.

Selección semántica de herramientas

Filtrar qué herramientas incluís en cada request basándote en la intención del usuario puede ahorrar hasta 89% en tokens de definición, según benchmarks publicados por Anthropic. Técnicamente implica un paso previo de clasificación de intención, pero para agentes en producción vale la pena.

Elegir el modelo correcto

Haiku 4.5 cuesta una fracción de Opus 4.7. Para tareas de routing, clasificación de intención, o llamadas simples que no requieren razonamiento complejo, usar Haiku puede reducir costos en un orden de magnitud. Usá Opus solo donde realmente necesitás el razonamiento avanzado.

Patrón CLAUDE.md en agentes

Incluir un archivo de contexto que el agente consulta al inicio (en vez de meter todo en el system prompt de cada llamada) es un patrón que, combinado con caching, reduce considerablemente los tokens de contexto repetidos. Si tu agente tiene documentación de herramientas larga, este patrón ayuda.

Para hosting y deploys de estas arquitecturas, donweb.com tiene opciones de VPS que se integran bien con agentes Python, sin la complejidad de configurar desde cero en un cloud enterprise.

Comparativa Completa: Estándar vs Avanzado

EstrategiaTokens consumidos (ejemplo 5 tools)LatenciaComplejidad de implementaciónMejor para
Standard Tool Use~55.000 (todas las definiciones siempre)BajaMínimaAgentes con pocas herramientas fijas
Tool Search~8.000-30.000 (carga dinámica)Media (+200-400ms primer turno)Media (requiere configuración de búsqueda)Agentes con 10+ herramientas variables
Programmatic Tool CallingReducción 37% vs estándar en workflows complejosBaja (menos round-trips)Alta (requiere código Python de orquestación)Pipelines predecibles y procesamiento batch
costos herramientas claude api diagrama explicativo

Errores Comunes al Usar Tool Use en Claude

Cargar todas las herramientas en todos los requests. El error más frecuente: desarrolladores que registran 15-20 herramientas en el setup inicial y las incluyen en cada llamada, sin importar si el agente las va a usar. La corrección es implementar selección por intención o, directamente, Tool Search.

No usar prompt caching en contextos repetitivos. Si tu system prompt incluye documentación de APIs o definiciones largas que no cambian entre llamadas, no cachear eso es dinero tirado. La implementación es una línea de código en la SDK de Anthropic y el descuento es del 90%.

Elegir Opus para todo. Hay equipos que configuran Claude Opus en toda su cadena de agentes “para asegurar calidad” y después se preguntan por qué la factura explotó. Haiku 4.5 resuelve el 80% de las tareas de clasificación, routing y síntesis simple a una fracción del costo. Guardá Opus para donde de verdad importa el razonamiento profundo.

Ignorar el costo de web search. Los USD 10 por 1.000 búsquedas parecen poco hasta que tenés un agente que hace búsquedas en cada turno de conversación. Si el agente hace 10 búsquedas por sesión y tenés 500 sesiones al mes, son USD 50 extras solo en búsquedas, sin contar tokens. Cubrimos ese tema en detalle en nuevos planes de facturación en 2026.

Preguntas Frecuentes

¿Cuántos tokens consume usar herramientas en Claude?

Depende del tipo de herramienta y cuántas cargues. Bash tool agrega 245 tokens de overhead por definición; computer use suma entre 466 y 499 tokens. Un agente con 5 servidores MCP puede gastar 55.000 tokens de contexto solo en setup, antes de procesar cualquier instrucción real.

¿Cómo optimizar el costo de tool calls en Anthropic?

Las tres técnicas con mayor impacto son: prompt caching (90% de descuento en tokens repetidos), Tool Search para carga dinámica de herramientas (hasta 95% de ahorro en definiciones), y seleccionar el modelo correcto según la complejidad de cada tarea. Haiku 4.5 resuelve tareas simples a mucho menor costo que Opus.

¿Qué diferencia hay entre tool use estándar y Programmatic Tool Calling?

El tool use estándar requiere un round-trip a la API de Claude por cada herramienta que el modelo quiere usar. Programmatic Tool Calling orquesta múltiples herramientas desde Python sin esos round-trips intermedios, reduciendo hasta 37% los tokens en workflows complejos. La contrapartida es mayor complejidad de implementación y ejecución en entorno sandboxed.

¿Por qué aumentó el costo de usar Claude en 2026?

Anthropic cambió a finales de 2025 su modelo de precios de planes con topes fijos a billing completamente usage-based (tokens consumidos + USD 20 por usuario activo). Para equipos que antes estaban en flat-rate y tenían agentes con tool use intensivo, el costo oculto de los tokens de definición se volvió visible, lo que generó aumentos de hasta 50x según reportes de usuarios desde febrero de 2026.

¿Qué es Tool Search y cómo reduce tokens?

Tool Search es una funcionalidad de Advanced Tool Use de Anthropic publicada a mediados de abril de 2026 que permite a los agentes cargar definiciones de herramientas on-demand según la tarea, en vez de cargar todas al inicio. En casos reales documentados reduce el consumo de 191.000 a 122.000 tokens, y Anthropic reporta hasta 95% de ahorro en contextos con muchas herramientas disponibles. Está disponible en la SDK oficial de Anthropic desde principios de 2026.

Conclusión

El cambio de billing de Anthropic expuso algo que siempre estuvo ahí: el overhead de tool use tiene un costo real que en modelos de precio fijo quedaba invisible. En 2026, con pricing usage-based, ese costo es tu problema.

La buena noticia es que las herramientas para controlarlo ya existen: Tool Search reduce drásticamente el consumo de tokens de definición, Programmatic Tool Calling optimiza workflows complejos, y la combinación de prompt caching con selección correcta de modelo puede bajar la factura a una fracción de lo que pagás ahora.

Lo que tiene que cambiar es la mentalidad de diseño: pasar de “cargo todo y que el modelo elija” a “cargo exactamente lo que la tarea necesita”. Ese cambio no es solo una optimización de costos; es la diferencia entre un agente que escala y uno que te arruina el presupuesto en producción.

Fuentes

Desplazarse hacia arriba