Cortesía en prompts: ¿mejora la precisión de la IA?

Un estudio de la Universidad de Penn State probó 50 preguntas con 5 niveles de cortesía distintos en ChatGPT-4o y encontró que los prompts más groseros obtuvieron 84.8% de precisión, contra 80.8% de los más corteses. La diferencia es pequeña pero estadísticamente significativa, y va en contra de lo que la mayoría de la gente asume sobre cómo hablarle a un modelo de lenguaje.

En 30 segundos

Prompts groseros superaron a los corteses en precisión: 84.8% vs 80.8% en el estudio Penn State con ChatGPT-4o.
La cortesía en prompts no mejora las respuestas de forma consistente en ningún modelo probado hasta 2026.
El idioma cambia todo: en japonés, el exceso de formalismo reduce la precisión; en inglés-chino, la cortesía ayuda levemente.
Lo que sí mejora la calidad de las respuestas: claridad estructural, Chain of Thought, y ejemplos concretos.
Para prompts en español rioplatense, el tono directo funciona mejor que el formal o el servil.

¿Cortesía en prompts? Lo que dice la ciencia sobre cómo la cortesía en prompts afecta la precisión de la IA

La creencia popular dice que si le hablás amablemente a un modelo de IA, te va a responder mejor. Tiene una lógica intuitiva: vos también respondés diferente si te piden las cosas con buena onda versus con mala onda. Pero los LLMs no son personas. Son sistemas entrenados sobre texto, y la relación entre tono del prompt y calidad de la respuesta es mucho más rara de lo que parece.

El prompt politeness es la práctica de usar frases como “por favor”, “te agradezco si podés ayudarme”, o incluso “te lo pido con todo el respeto del mundo” antes de una instrucción. La teoría detrás es que el modelo, habiendo aprendido de interacciones humanas, respondería mejor a quien le habla bien. Spoiler: no funciona así de simple.

Acá viene la paradoja: hay usuarios que escriben prompts tipo “hola, espero que estés bien, si no es molestia, ¿podrías ayudarme a…?” y hay otros que escriben “dame los primeros 10 primos en Python”. La segunda versión, en general, funciona igual o mejor. Los papers recientes lo confirman con números.

El estudio Penn State 2025: prompts groseros, 4% más precisos

El paper publicado en arXiv (arxiv.org/abs/2510.04950) tomó 50 preguntas del benchmark MMLU y las formuló con 5 niveles de tono: muy cortés, cortés, neutro, descortés y muy descortés. Las probaron en ChatGPT-4o y midieron precisión de respuestas.

Los resultados:

Nivel de tono	Precisión obtenida
Muy cortés	80.8%
Cortés	82.1%
Neutro	83.4%
Descortés	84.0%
Muy descortés	84.8%

El patrón es claro y monótono: a más cortés, menos preciso. La diferencia total entre los extremos es de 4 puntos porcentuales. No es enorme, pero en un benchmark de 50 preguntas es estadísticamente significativo, y el sentido de la diferencia es lo que sorprende.

¿Por qué el modelo respondería mejor a un tono más directo o incluso áspero? La hipótesis más sólida del paper es que los prompts corteses incluyen más relleno lingüístico (“si no es molestia”, “te lo agradecería mucho”) que no aporta información sobre la tarea. El modelo tiene que procesar ese texto adicional y, en algunos casos, puede sobreajustar el estilo de respuesta al tono del prompt en lugar de focalizarse en la precisión del contenido.

Dicho esto, 4% no es como para reescribir tu stack de prompts. El hallazgo es interesante como dato, no como receta de producción. En nuestra guía sobre modelos de lenguaje profundizamos sobre esto.

La sorpresa del estudio cross-lingüístico: el idioma sí importa

Un segundo paper (arxiv.org/abs/2402.14531) analizó el efecto de la cortesía en tres idiomas: inglés, chino y japonés. Y acá la cosa se complica.

En la combinación inglés-chino, la cortesía tiene un efecto levemente positivo. En prompts en chino, agregar fórmulas de respeto mejora marginalmente las respuestas. En japonés, en cambio, el exceso de keigo (el sistema formal del idioma japonés) reduce la precisión. El modelo interpreta el registro ultra-formal como una señal de contexto que no siempre coincide con la tarea que se le pide.

La conclusión es que no existe una regla universal. El efecto del tono depende del idioma, del modelo, y probablemente de la tarea. Alguien que trabaja con prompts en inglés para modelos entrenados principalmente en inglés está en un contexto distinto al de alguien que trabaja en español con los mismos modelos.

Para el español latinoamericano, no hay un paper específico todavía (que yo haya visto). Pero la lógica del estudio sugiere que el formalismo excesivo tampoco va a ayudar.

Por qué el tono afecta, aunque no sea evidente

Ponele que le preguntás a Claude: “Estimado asistente, si no es demasiado problema y tenés un momento, ¿podrías indicarme con tus propias palabras la capital de Francia?” El modelo procesa “estimado asistente”, “si no es demasiado problema”, “tenés un momento”, “con tus propias palabras”, y recién ahí llega a la tarea. Ese ruido lingüístico no afecta mucho en preguntas simples. En tareas complejas, puede interferir con el foco.

Los LLMs aprenden a partir de texto humano masivo. Cuando ven ciertas frases de apertura, activan patrones asociados a ese estilo de conversación. Un prompt que suena a “consulta de soporte al cliente” puede activar patrones de respuesta de ese dominio (verbose, tranquilizador, evitando la confrontación) en vez de los patrones de “respuesta técnica precisa”.

Eso sí: esto varía por modelo. GPT-4o no responde igual que Claude 3.5 Sonnet, ni que Gemini 1.5 Pro. Los modelos más nuevos tienden a ser más robustos a variaciones de tono que versiones anteriores (que eran más sensibles al “role” que establecía el prompt inicial). No hay que generalizar el resultado de un paper a todos los modelos por igual.

Técnicas que sí funcionan: claridad y estructura por encima del tono

El tono del prompt importa menos que su estructura. Mucho menos. Si tenés que elegir dónde invertir tiempo de optimización, acá están las variables que tienen más impacto real:

Chain of Thought

Agregar “pensá paso a paso” o “razoná antes de responder” puede mejorar la precisión en tareas de razonamiento entre un 10% y un 40% dependiendo del modelo y la tarea. No es una “mejora”, es un cambio de modo de operación del modelo.

Few-shot prompting

Si le mostrás al modelo 2-3 ejemplos del formato que esperás, el output se ajusta al patrón. Funciona mejor que cualquier nivel de cortesía. La estructura ejemplo-input → ejemplo-output → tu-input-real es una de las técnicas más sólidas que hay según promptingguide.ai.

Estructuración con XML (especialmente para Claude)

Claude en particular responde bien a prompts estructurados con tags XML: <task>, <context>, <format>. No porque sea “más educado”, sino porque la separación explícita de secciones reduce ambigüedad. El modelo sabe exactamente qué es la tarea y qué es el contexto.

Rol explícito

Decirle “actuá como un desarrollador senior que revisa código” vs “mirá este código” puede cambiar el nivel de detalle y el enfoque de la respuesta. Esto no tiene nada que ver con cortesía, tiene que ver con establecer el marco de referencia del modelo para la tarea.

Prompts en español: ajustes para el contexto rioplatense

Si trabajás con modelos en español argentino o latinoamericano, hay algunas consideraciones adicionales.

El español formal de corte peninsular (“¿Podría usted indicarme…”) y el español neutro de medios (“Se solicita que el sistema proporcione…”) activan patrones de respuesta distintos a los de un español directo rioplatense. Los modelos están entrenados con más texto en inglés y en español neutro que en español rioplatense. Esto significa que un prompt en voseo puede ser procesado con algo menos de “confianza” por el modelo, porque hay menos ejemplos de ese registro en el entrenamiento.

La recomendación práctica: usá español claro y directo. No forzés el voseo si el contexto es técnico formal. No uses hiperformalismo innecesario. Y si la tarea es en español pero el modelo da mejores resultados en inglés (lo cual pasa con algunos benchmarks), considerá escribir el prompt en inglés y pedirle que responda en español.

Para equipos que construyen pipelines de prompts en producción y necesitan un entorno estable para correrlos, la infraestructura importa tanto como el prompt en sí. Un servidor con baja latencia hace que la iteración sea más rápida; si estás en Argentina, donweb.com tiene opciones de cloud local que reducen el round-trip a las APIs.

Tres técnicas para testear tus propios prompts

Más allá de los papers, lo que vale es lo que funciona en tu caso de uso concreto. Acá van tres métodos para evaluar si el tono de tu prompt afecta tus resultados:

Método A/B simple: tomá un prompt que uses regularmente. Escribí dos versiones: una con toda la cortesía que le ponés normalmente, otra completamente directa. Mandá cada una 5-10 veces al mismo modelo y comparé las respuestas por precisión o utilidad. Evaluá con un criterio objetivo, no por “cuál suena mejor”.

Registro de variaciones: si trabajás con prompts en producción, llevá un log básico con tres columnas: tono/estilo del prompt, estructura (con o sin ejemplos, con o sin CoT), resultado obtenido. En 20-30 iteraciones vas a ver patrones. Los números son más honestos que la intuición.

Separación de variables: no cambies tono y estructura al mismo tiempo. Si cambiás las dos cosas a la vez, no sabés cuál de las dos generó el cambio. Variá una sola cosa por test. Sí, es más lento. También es lo único que te da información real.

¿Alguien verificó si esto escala a tareas de producción complejas, no solo benchmarks de preguntas cerradas? Todavía no hay papers específicos. Los benchmarks tipo MMLU son preguntas de opción múltiple donde la “precisión” es binaria. En generación de código, síntesis de documentos o análisis de datos, el efecto del tono podría ser diferente.

Errores comunes al diseñar prompts basados en tono

Error 1: Asumir que más educado = más seguro. Hay usuarios que le agregan cortesía a los prompts creyendo que así el modelo va a ser “más cuidadoso” con la respuesta. No funciona así. El nivel de cautela del modelo lo controla el system prompt y los filtros de seguridad del proveedor, no el tono del usuario.

Error 2: Optimizar el tono antes que la claridad. Si un prompt es ambiguo, agregar “por favor” no lo va a hacer más claro. El modelo va a responder a la ambigüedad con generación probable, no con una clarificación. Primero asegurate de que la instrucción sea inequívoca. Después, si querés, le ponés “gracias” al final.

Error 3: Generalizar el resultado de un paper a todos los modelos y tareas. El estudio de Penn State fue con ChatGPT-4o y preguntas MMLU. No con Claude, no con Gemini, no con tareas de generación de código o análisis cualitativo. Los resultados son un dato, no una regla universal. Testealo en tu contexto específico antes de cambiar cómo operás. Complementá con la familia de modelos GPT.

Siquerés saber más al respecto, tenemos un artículo sobre consejos de cortesía.

Esto se conecta con prompt politeness techniques, donde cubrimos el tema en detalle.

Preguntas Frecuentes

¿La cortesía en los prompts mejora las respuestas de la IA?

No de forma consistente. El estudio Penn State 2025 encontró que los prompts más groseros obtuvieron hasta 4% más precisión que los más corteses en ChatGPT-4o. En algunos idiomas como el chino, la cortesía ayuda levemente; en japonés, el exceso de formalismo reduce la precisión. El efecto depende del modelo y del idioma.

¿Cómo afecta el tono de un prompt a la precisión del modelo?

El tono afecta qué patrones de texto activa el modelo durante la generación. Los prompts muy corteses incluyen más relleno lingüístico que puede distraer al modelo de la tarea principal. Los prompts directos o neutros tienden a generar respuestas más enfocadas en tareas de precisión. El efecto es moderado comparado con variables como estructura del prompt o uso de ejemplos.

¿Debo ser cortés cuando le pido algo a ChatGPT o Claude?

Podés serlo si querés, pero no va a mejorar la calidad de la respuesta. Lo que sí mejora la calidad es la claridad de la instrucción, el uso de ejemplos, y la estructuración explícita de la tarea. El tono es irrelevante desde el punto de vista técnico del modelo; no te va a “agradecer” la amabilidad con mejores respuestas.

¿Qué tipo de prompt funciona mejor para obtener respuestas precisas?

Los prompts que combinan instrucción clara, contexto relevante y formato esperado superan a cualquier variación de tono. Chain of Thought (“razoná paso a paso”), few-shot prompting (incluir 2-3 ejemplos de input/output), y separación explícita de secciones (especialmente en Claude con XML) son las técnicas con mayor impacto documentado en benchmarks.

¿Por qué los prompts directos funcionan mejor que los corteses?

Los prompts directos tienen menos ruido lingüístico: el modelo llega más rápido a la instrucción real sin procesar frases de apertura, agradecimientos o fórmulas de cortesía que no aportan información sobre la tarea. Los modelos de lenguaje no tienen emociones ni preferencias sociales; el tono afecta la distribución de probabilidad de los tokens siguientes, no la “motivación” del modelo.

Conclusión

El resultado más honesto de los papers disponibles en 2026 sobre cortesía en prompts es este: el tono importa poco, y cuando importa, no favorece a la cortesía. La diferencia de 4 puntos porcentuales del estudio Penn State es real, pero pequeña. Lo que mueve la aguja de verdad es la estructura: claridad de instrucción, ejemplos, Chain of Thought.

Si venías agregando “por favor” y “muchas gracias” a tus prompts creyendo que eso mejoraba algo, podés seguir haciéndolo si te hace sentir bien, pero no esperes diferencias medibles en la calidad de las respuestas. El tiempo que invertís en pulir el tono lo podés invertir en mejorar la claridad de lo que pedís, y eso sí tiene retorno.

Lo que sí cambia la ecuación es el idioma y el modelo. Si trabajás en un contexto multilingüe o con modelos menos entrenados en español, el tono puede tener efectos distintos a los reportados. Testeá en tu caso de uso antes de sacar conclusiones generales.

¿Ser cortés con la IA mejora sus respuestas?