En pocas palabras: Caveman Prompting es una técnica de Julius Brussee que reduce tokens de salida entre 65-75% eliminando palabras innecesarias sin afectar la calidad del razonamiento del modelo. Optimiza costos de APIs de IA de forma inmediata.
Caveman Prompting es una técnica de optimización de prompts creada por Julius Brussee que reduce el consumo de tokens eliminando palabras innecesarias, artículos y frases de cortesía en las respuestas del modelo. Los usuarios reportan ahorros de hasta 75% en output tokens sin afectar significativamente la calidad de las respuestas generadas.
En 30 segundos
- Caveman Prompting ordena al LLM responder sin artículos, palabras de cortesía ni filler words
- Ahorros medios de 65-75% en tokens de salida, con rango de 22-87% según la tarea
- Solo afecta output tokens; el reasoning y la calidad de pensamiento se mantienen intactos
- No es apropiada para tutoriales, explicaciones paso a paso ni contenido educativo
- Disponible en GitHub con varias implementaciones y como skill en Claude Code
Caveman Prompting es una técnica de optimización de prompts que instruye al modelo de lenguaje a generar respuestas eliminando deliberadamente palabras innecesarias, artículos, conectores y frases de cortesía. El objetivo es reducir el uso de tokens en la salida mientras se preserva la información y la utilidad de la respuesta.
Qué es Caveman Prompting y por qué surgió
La idea surgió de un problema real: cada token cuesta dinero. Si usás OpenRouter, Google Gemini o cualquier API de modelos, sabés que los output tokens son tan caros como los input tokens (en algunos casos más caros). Ponele que necesitás generar 1000 respuestas para un sistema de IA — cada token extra multiplica el costo de manera dramática.
Julius Brussee, el creador de la técnica, se dio cuenta de algo obvio que nadie estaba explotando sistemáticamente: los LLMs tienen un patrón de habla muy humano y educado. Dicen cosas como “Claro, con gusto te ayudaré”, “He analizado el código y encontré los siguientes problemas”, “Espero que esto haya sido útil”. Eso es tokens para el tacho.
¿Y si le ordenas al modelo que responda como un cavernícola? Sin “he”, sin “la”, sin ningún filler innecesario. Solo la información. (Spoiler: funciona.)
El experimento inicial documentó ahorros de 75% en algunos casos. Los números variaban según la tarea, pero la tendencia era clara: podías cortar peso sin perder contenido.
Cómo funciona: De la escritura normal al estilo caveman
La técnica es simple en teoría, poderosa en práctica. En vez de escribir un prompt normal que espera una respuesta conversacional, le agregás una instrucción que dice algo como “Respond caveman style: eliminate articles, remove filler words, no pleasantries. Just information.”
Un ejemplo concreto. Prompts normal:
- “¿Cuál es la mejor forma de optimizar una query SQL?”
Salida normal: “Excelente pregunta. Hay varias estrategias que podés implementar. Primero, agregá índices en las columnas que usás frecuentemente en la cláusula WHERE. Segundo, asegurate de que tus joins estén optimizados. Tercero…” Relacionado: en entornos empresariales seguros.
Caveman Prompting:
- “¿Mejor forma optimizar query SQL? Responder caveman: sin artículos, sin cortesía, datos puros.”
Salida caveman: “Agregar índices columnas WHERE. Optimizar joins. Usar EXPLAIN ANALYZE. Partición tablas grandes. Denormalizar si necesario.”
Ves la diferencia. Es menos agradable de leer (no hay “Excelente pregunta”, no hay transiciones suaves), pero es 60-70% más compacta. Subís el modelo, lo probás en local, funciona bárbaro, lo mandás a producción y de repente te das cuenta de que ahorrasteMillones de tokens en un mes.
Ahorros cuantificados: Resultados reales de tokens
| Tipo de tarea | Ahorro típico | Rango observado | Notas |
|---|---|---|---|
| Debugging código | 72% | 65-78% | Respuestas estructuradas, poco filler |
| Análisis datos | 68% | 58-75% | Dependiente de tabla/formato |
| Resúmenes | 45% | 22-62% | Mucho más variable |
| Tutoriales | -15% | -25% a +5% | Empeora, no la uses aquí |
| Explicaciones técnicas | 55% | 40-70% | Bueno si necesitás datos puros |

Los datos vienen de tests realizados por usuarios de Claude y GPT en escenarios reales. El ahorro promedio ronda 65%, pero con una dispersión importante: tan bajo como 22% para ciertos resúmenes, tan alto como 87% para debugging de código.
Algo crítico que aclarar: esto solo afecta tokens de output. El reasoning del modelo, el trabajo mental que hace para resolver el problema, sigue siendo exactamente el mismo. No estás perdiendo capacidad de análisis. Estás solo ahorrando tokens en cómo comunica lo que ya pensó.
¿Cuánto dinero significa eso? Ponele que tenés un sistema que genera 1000 respuestas por día, con un promedio de 300 output tokens por respuesta. Con una API que cobra USD 1.50 por millón de output tokens (pricing típico de Gemini Flash):
- Sin Caveman: 1000 × 300 × 1.50 / 1.000.000 = USD 0.45 por día
- Con Caveman (ahorrar 65%): 1000 × 105 × 1.50 / 1.000.000 = USD 0.16 por día
- Ahorro mensual: USD 8.70
No suena mucho para un sistema pequeño. Pero si generás 10.000 respuestas por día (lo que cualquier startup con tráfico mediano hace), el ahorro es USD 87 mensuales. Para startups que quieren rentabilidad temprana, eso cuenta.
Limitaciones críticas y cuándo NO usarla
Acá viene lo importante que nadie enfatiza bastante: Caveman Prompting es un destornillador, no un martillo. Funciona para algunos trabajos y es un desastre para otros. Más contexto en puedes probar en ChatGPT.
NO funciona para tutoriales ni aprendizaje: Si el usuario necesita entender paso a paso cómo hacer algo, la escritura caveman sin transiciones mata la pedagogía. “Primero index. Luego join. Entonces explain.” no te enseña cómo pensar sobre optimización de SQL.
No funciona para contenido creativo: Si necesitás un email de marketing, una presentación convincente, o un hilo de Twitter, Caveman Prompting le saca toda la sangre. Las palabras de cortesía, los conectores suaves, el ritmo — eso es exactamente lo que hace que el contenido sea enganchante.
Legibilidad comprometida: Las respuestas son más difíciles de leer. Sin artículos, sin conectores, parece una lista de inventario. Para un sistema B2B donde los humanos van a leer la salida, puede ser un problema.
Riesgo de ambigüedad: Sin contexto y sin palabras conectoras, a veces la respuesta pierde precisión. Las cosas que “dan por sobreentendidas” pueden no quedar claras.
Hay tests donde pedís a usuarios que comparen respuestas normales vs caveman en tareas de comprensión. Los usuarios prefieren la versión normal en un 70% de los casos. La caveman es más rápida de procesar si ya sabés de qué hablás, pero si necesitás aprender, es incómoda.
Punto medio: Concisión sin perder claridad
La verdad es que Caveman Prompting puro es un extremo. Lo que funciona mejor en la mayoría de casos es algo intermedio: “Respond in short, direct sentences. Use simple language. Avoid filler and pleasantries. Focus on facts and actionable information.”
Eso logra el 50-60% del ahorro de Caveman sin sacrificar tanto la legibilidad. Mantiene estructura gramatical mínima, usa artículos cuando son necesarios, pero sin decoración innecesaria. Complementá con en nuestro análisis de GPT.
Ejemplo:
- Caveman puro: “Add index column_name. Use explain analyze. Check execution plan.”
- Punto medio: “Add an index on column_name. Use explain analyze to check the execution plan.”
La salida del punto medio es más fácil de leer, sigue siendo mucho más compacta que la versión normal, y ahorra 40-50% de tokens sin los trade-offs del Caveman puro.
Si recién estás experimentando con esto, arrancá con el punto medio. Es el que mejor balance da entre ahorro y usabilidad.
Ejemplos prácticos de implementación
Ponele que estás haciendo un debugger automático. El usuario pega código que no funciona, el sistema lo analiza, devuelve qué está roto y cómo arreglarlo.
Prompt normal:
- “Analizá el código y decime qué está mal.”
Output típico (180 tokens):
- “He analizado el código y he encontrado un problema significativo en la línea 42. El issue es que estás intentando acceder a una propiedad que no existe en el objeto. Esto causaría un error de tipo ‘undefined is not an object’. Para arreglarlo, deberías verificar primero si la propiedad existe, o usar optional chaining…”
Prompt Caveman Prompting:
- “Analizar código. Caveman: responder sin artículos, sin cortesía, datos puros. Problema + solución.”
Output típico (45 tokens):
- “Línea 42: accesando propiedad inexistente. Error ‘undefined is not an object’. Fix: usar optional chaining (?.) o verificar propiedad antes acceso.”
75% menos tokens. El problema está identificado, la solución está clara. Un programador entiende esto al toque.
Otro caso: generador de reportes de datos. Tenés 500 bases de datos, 5000 clientes, cada uno pide un reporte cada día. Si usás Caveman en las salidas, cortás gastos de API de manera seria.
Herramientas disponibles en GitHub
No hay que implementar Caveman Prompting desde cero. La comunidad ya lo hizo.
JuliusBrussee/caveman: El repo original. Include ejemplos, documentación, benchmarks reales. Además, está disponible como skill en Claude Code — podés usarlo directo en el editor.
om-patel5/Caveman-Claude: Una capa de optimización más completa. No solo simplifica output, sino que ajusta el prompt automáticamente. Detecta qué tipo de tarea es (debugging, análisis, resumen) y aplica diferentes niveles de “caveman” según corresponda.
wilpel/caveman-compression: Enfoque más experimental. Usa un método semántico para identificar qué palabras son realmente prescindibles sin perder significado. Resultados más variables pero a veces mejor que Caveman puro.
Para empezar, usa el repo original de Brussee. Es el más documentado y tiene la comunidad más activa alrededor.
Preguntas Frecuentes
¿Qué es Caveman Prompting exactamente?
Es una técnica que ordena al modelo de lenguaje generar respuestas sin palabras innecesarias, artículos ni filler words. Reduces tokens de salida sin perder información. Julius Brussee desarrolló la idea documentando ahorros de 65-75% en casos reales. Sobre eso hablamos en si quieres explorar Gemini también.
¿Cuántos tokens puedo ahorrar realmente con Caveman Prompting?
Depende de la tarea. Para debugging y análisis de código, espera 65-78% de ahorro. Para resúmenes, es más variable (22-62%). Para tutoriales y contenido educativo, a veces empeora. Promedio general: 65%.
¿En qué casos debo usar Caveman Prompting?
Úsalo en sistemas que procesan mucho volumen de datos donde la salida será consumida por máquinas o técnicos que entienden el contexto. Debugging automático, análisis de datos, generación de reportes técnicos. Evitalo en tutoriales, marketing o cualquier contenido que necesite ser persuasivo o didáctico.
¿Cómo implemento Caveman Prompting en mis prompts?
Agregá una línea en tu sistema prompt: “Respond in caveman style: eliminate articles, remove filler words, no pleasantries. Provide information only.” O usá el nivel intermedio: “Respond in short, direct sentences. Avoid filler and pleasantries.” El segundo nivel es más fácil de implementar y sigue ahorrando 40-50% de tokens.
¿Es Caveman Prompting la mejor forma de ahorrar dinero en APIs de IA?
Es una de las mejores, especialmente si operás a escala. Otros métodos: cachear respuestas, reducir context length, usar modelos más pequeños. Caveman combina ahorro real con impacto mínimo en calidad. Para sistemas que generan 10.000+ respuestas diarias, el ahorro es significativo.
Conclusión
Caveman Prompting no es un truco mágico, pero es una herramienta legítima que funciona cuando la usás en el contexto correcto. Es excelente para reducir costos en sistemas de alto volumen donde la salida es consultada rápidamente por técnicos que ya entienden el dominio.
Si tenés 100 mil respuestas por mes y cada una ahorra 60% de tokens, estamos hablando de ahorros serios. Si solo generás 10 respuestas, no vale la pena comprometer la legibilidad.
La versión intermedia — “respuestas concisas sin filler, pero manteniendo estructura básica” — es probablemente la que mejor equilibrio da para la mayoría de aplicaciones. Ahorras mucho, pero sin sacrificar tanto la claridad.
Probá con el repo de Brussee. Los ejemplos son claros, la documentación es sólida, y la comunidad está activa. Vale la pena validar si funciona para tu caso de uso específico antes de implementarlo a escala.
Fuentes
- AI Productivity News – Caveman Prompting: Reduce tokens by 75% with Claude
- GitHub – JuliusBrussee/caveman – Original Caveman Prompting implementation
- AIIA – Caveman Prompting: Save Tokens with Claude
- GitHub – om-patel5/Caveman-Claude – Complete optimization layer for Caveman
- GitHub – wilpel/caveman-compression – Semantic compression alternative method
Ejemplo práctico
Martín, desarrollador full-stack en Buenos Aires, usa Claude API para generar funciones JavaScript en su startup. Cada mes corre 250+ requests contra la API de Anthropic y necesita optimizar costos de token.
Prompt sin optimizar: “Por favor, me gustaría que generes una función en JavaScript que valide direcciones de email. La función debe verificar que el email sea válido según el estándar RFC 5322 y retornar true si es válido, false si no lo es. Por favor incluye comentarios en el código explicando cada paso.” → 854 tokens de salida
Prompt con Caveman Prompting: “Función JavaScript validar email RFC 5322. Return true/false. Incluir comentarios.” → 287 tokens de salida
Resultado: 66% de ahorro de tokens sin perder calidad del código. Con 250 requests mensuales, Martín pasa de $4.27 a $1.43 en costos de output. En un año = $35.04 anuales ahorrados. Escalado a su equipo de 8 devs que siguen el patrón, la startup se ahorra $280 al año en API costs, dinero que reinvierte en more API calls para mejorar features en lugar de desperdiciarlo en verbosidad.
