EVA: Nuevo Framework de Evaluación Agentes de Voz IA

ServiceNow publicó hoy EVA (Evaluating Voice Agents), un framework open source que por primera vez evalúa agentes de voz con IA midiendo simultáneamente si completan la tarea correctamente y si la experiencia conversacional es usable en la práctica. El código está disponible en GitHub y el dataset en Hugging Face, con benchmark de 20 sistemas que incluyen GPT-4o Audio y Gemini.

En 30 segundos

EVA produce dos scores independientes: EVA-A (precisión en la tarea) y EVA-X (calidad de la experiencia conversacional), revelando un tradeoff consistente entre ambos ejes que ningún sistema logra dominar
Usa una arquitectura bot-to-bot con 5 componentes — no requiere anotadores humanos para evaluar conversaciones multi-turno completas
Incluye un dataset inicial de 50 escenarios de aerolíneas (rebooking, cancelaciones, vouchers) con 15 herramientas, y es el primero de una serie de dominios planeados
El benchmark de 20 sistemas cascade y audio-nativos muestra una brecha enorme entre lograr una tarea una vez (pass@3) y lograrla de forma consistente (pass^3)
Speech Fidelity es la única métrica en cualquier benchmark end-to-end que evalúa directamente el audio generado por el agente

Qué es EVA y por qué la evaluación de agentes de voz necesitaba un nuevo enfoque

EVA es un framework de evaluación end-to-end para agentes conversacionales de voz, desarrollado por el equipo de ServiceNow AI y publicado el 24 de marzo de 2026. El nombre viene de Evaluating Voice Agents, y apunta a un problema que cualquiera que haya trabajado con IVRs inteligentes o asistentes de voz conoce bien: evaluar si el agente hace su trabajo no alcanza si la experiencia de usarlo es insoportable.

Pensalo así. Un agente de voz puede completar perfectamente una reserva de vuelo, pero si para hacerlo te lee un párrafo de 200 palabras por teléfono sin pausas, es inutilizable. O al revés: puede sonar natural y fluido, pero confundir un código de confirmación porque el modelo de speech-to-text le cambió una letra. Los frameworks que existían hasta ahora evaluaban una cosa o la otra — task success por un lado, dinámica conversacional por otro — pero nunca las dos juntas en una misma evaluación integrada.

EVA propone exactamente eso: dos scores de alto nivel, EVA-A (Accuracy) y EVA-X (Experience), diseñados para detectar fallas en cada dimensión de forma independiente.

Arquitectura bot-to-bot: los 5 componentes que eliminan al anotador humano

Lo que hace diferente a EVA de un test manual es que evalúa conversaciones multi-turno completas usando una arquitectura donde dos bots hablan entre sí. No hay humanos escuchando grabaciones ni calificando respuestas — todo el pipeline es automatizado y reproducible.

User Simulator

Una IA que simula al usuario que llama. No es un script fijo: recibe una persona (estilo de habla, nivel de paciencia, personalidad) y un objetivo concreto, y genera respuestas con TTS de alta calidad. Cada escenario define un árbol de decisión para que el simulador reaccione de forma realista ante lo que diga el agente. Si te interesa, podés leer más sobre nuestra guía sobre ChatGPT.

Voice Agent

El agente bajo evaluación. Según la documentación de EVA, está construido con Pipecat y soporta tanto arquitecturas cascade (STT → LLM → TTS) como audio-nativas (speech-to-speech y LALMs → TTS). Eso permite comparar enfoques fundamentalmente distintos en igualdad de condiciones.

Tool Executor, Validators y Metrics Suite

El Tool Executor provee respuestas determinísticas mediante Python, con consultas dinámicas a una base de datos por escenario — nada de mocks ambiguos. Los Validators verifican automáticamente que las conversaciones están completas. Y la Metrics Suite evalúa usando la grabación de audio, la transcripción y los logs de tool calls, todo sin intervención humana.

EVA-A: tres métricas de precisión que miden si el agente hace bien su trabajo

El score de Accuracy se compone de tres métricas, cada una atacando un ángulo distinto del problema.

Task Completion es determinístico: compara el estado final esperado contra el estado real en la base de datos del escenario. No hay subjetividad acá — el vuelo se rebookeó o no se rebookeó, el voucher se aplicó o no. En implementación segura en entornos empresariales profundizamos sobre esto.

Faithfulness usa un LLM como juez para evaluar si las respuestas del agente están fundamentadas en las instrucciones, las políticas de la empresa, los inputs del usuario y los resultados de las herramientas. Detecta fabricaciones, alucinaciones y violaciones de políticas. Si el agente inventa una política de equipaje que no existe, acá lo agarran. Si te interesa, podés leer más sobre cómo funcionan los modelos GPT.

La tercera es la más interesante. Speech Fidelity usa un LALM (Large Audio Language Model) como juez para evaluar si la salida hablada del agente reproduce fielmente el texto que tenía que decir. Se enfoca en entidades críticas: códigos de confirmación, números de vuelo, montos en dólares. Según el paper, es la única métrica en cualquier benchmark end-to-end que evalúa directamente el audio generado. No la transcripción — el audio.

EVA-X: la experiencia conversacional que los benchmarks tradicionales ignoran

Acá es donde EVA se separa del resto. EVA-X mide tres aspectos de la experiencia que son invisibles para cualquier benchmark que solo mire si la tarea se completó.

Conciseness evalúa si las respuestas son breves y apropiadas para interacción hablada. Lo que en texto es un párrafo aceptable, por teléfono es un monólogo insufrible. Conversation Progression mide si la conversación avanza efectivamente: ¿el agente evita repeticiones? ¿Retiene contexto de turnos anteriores? ¿Conduce hacia la resolución? Y Turn-Taking analiza el timing del habla — si el agente interrumpe al usuario o deja silencios largos e incómodos.

Las tres usan LLM-as-Judge. El punto es que un agente puede completar perfectamente una cancelación de vuelo, pero si para hacerlo repitió la misma información tres veces y dejó al usuario esperando 8 segundos entre turnos, la experiencia es mala. EVA lo captura. Los benchmarks anteriores, no. Si te interesa, podés leer más sobre las capacidades de Gemini en detalle.

El dataset de aerolíneas: 50 escenarios que testean lo que importa

EVA se lanza con un dataset inicial de 50 escenarios sintéticos en inglés, todos en el dominio de aerolíneas, con 15 herramientas disponibles. Cubre rebooking por irregularidades operacionales (IRROPS), cambios voluntarios de itinerario, cancelaciones, standby del mismo día y vouchers de compensación.

Cada escenario viene con cuatro elementos: un User Goal con árbol de decisión, una User Persona que define estilo de habla y personalidad, una Scenario Database con los datos backend reales, y un Ground Truth con el estado final esperado. Eso permite verificación determinística.

¿Qué testea concretamente? Razonamiento temporal (¿el vuelo conecta?), seguimiento de políticas (¿aplica la tarifa correcta?), satisfacción de restricciones (¿respeta la ventana horaria del pasajero?) y manejo de entidades nombradas (¿dice bien el código de confirmación?). El equipo aclara que aerolíneas es el primer dominio y que planean expandir a otros sectores. Más contexto en fundamentos de los asistentes conversacionales.

Benchmark de 20 sistemas: el tradeoff que nadie veía entre precisión y experiencia

Acá viene lo bueno. EVA benchmarkeó 20 configuraciones de agentes de voz, incluyendo sistemas cascade y audio-nativos (modelos speech-to-speech y LALMs). Entre los evaluados están GPT-4o Audio y Gemini. Si te interesa, podés leer más sobre los modelos de lenguaje y razonamiento.

El hallazgo principal es contundente: existe un tradeoff Accuracy-Experience consistente. Los agentes que sobresalen en completar tareas entregan peor experiencia conversacional, y viceversa. Ninguna configuración domina ambos ejes al mismo tiempo.

Dimensión	Sistemas cascade (STT→LLM→TTS)	Sistemas audio-nativos (S2S/LALM)
Task Completion	Tienden a puntuar más alto	Puntúan más bajo en promedio
Speech Fidelity	Depende del TTS elegido	Más variabilidad en entidades críticas
Conciseness	Respuestas más largas y verbosas	Más naturales pero menos precisas
Turn-Taking	Latencia por pipeline multi-etapa	Mejor timing natural
Consistencia (pass@3 vs pass^3)	Brecha moderada	Brecha significativa

evaluación agentes de voz diagrama explicativo

La metodología usa pass@k y pass^k con k=3. Pass@3 mide el mejor resultado en tres intentos — el rendimiento pico. Pass^3 mide si logra el resultado en los tres intentos — la consistencia. La brecha entre ambos es enorme en la mayoría de los sistemas: agentes que completan tareas bien a veces no pueden hacerlo de forma confiable. Para producción, esa diferencia es la que define si tu agente es deployable o no.

Los modos de fallo que rompen agentes de voz en producción

EVA identificó tres modos de fallo recurrentes que explican por qué tantos agentes de voz fallan cuando salen del laboratorio.

El primero es la transcripción de entidades nombradas. Un solo carácter mal interpretado en un código de confirmación — ponele, “BRAVO” en vez de “BRACO” — desencadena un fallo de autenticación que colapsa toda la conversación. El agente entra en un loop pidiendo el código de nuevo, el usuario se frustra, y lo que podría haber sido una interacción de 2 minutos se convierte en un callejón sin salida. Speech Fidelity captura exactamente esto. Si te interesa, podés leer más sobre el funcionamiento de Claude como asistente IA.

El segundo es la complejidad de flujos multi-paso. El caso más demandante del benchmark es el rebooking de vuelos preservando servicios auxiliares — asientos asignados, equipaje extra, upgrades. No alcanza con encontrar un vuelo alternativo; hay que migrar todo el contexto del viaje original. Acá es donde la mayoría de los agentes se pierden.

Tercero: la brecha de consistencia. Que un agente complete una tarea una vez no significa que pueda hacerlo de forma confiable. La diferencia entre pass@3 y pass^3 revela que muchos sistemas tienen un rendimiento errático — a veces clavan la respuesta perfecta, a veces fallan en el mismo escenario. Si estás evaluando un agente para producción, esta métrica te importa más que el pico.

Roadmap: más dominios, más idiomas, evaluación prosódica

El equipo de ServiceNow AI publicó un roadmap con las próximas expansiones. La lista incluye evaluación prosódica (pronunciación, ritmo y expresividad del habla), pruebas de robustez con ruido de fondo, acentos diversos y soporte multilingüe, y evaluación affect-aware — básicamente, si el agente suena empático cuando corresponde. Cubrimos ese tema en detalle en capacidades de razonamiento en agentes de IA.

También planean datasets de nuevos dominios más allá de aerolíneas, escenarios más complejos con solicitudes compuestas y memoria conversacional larga, herramientas de análisis de errores, y un leaderboard continuo. Si te interesa, podés leer más sobre el ecosistema de inteligencia artificial de Google.

Ojo con las limitaciones actuales, que el propio equipo reconoce: 50 escenarios es un set chico, solo en inglés, un solo dominio, dependencia de TTS comercial para el simulador de usuario, y task completion binario sin crédito parcial. Si el agente hizo el 90% del trabajo bien pero falló en el último paso, el score es cero. Eso es algo que van a tener que iterar.

Errores comunes al evaluar agentes de voz

Evaluar solo con transcripciones y nunca con audio

La mayoría de los equipos testean sus agentes de voz leyendo transcripts. El problema es que un transcript perfecto no te dice si el agente pronunció bien un número de vuelo o si el TTS convirtió “USD 450” en algo incomprensible. EVA incluye Speech Fidelity precisamente porque la cadena de errores empieza en el audio, no en el texto.

Medir task completion sin medir consistencia

Un demo donde el agente completa la tarea 1 de 3 veces impresiona en una presentación. En producción, es un desastre. La diferencia entre pass@3 y pass^3 que mide EVA expone exactamente esto: si no medís consistencia, te vas a llevar sorpresas feas cuando escales.

Ignorar la experiencia conversacional porque “la tarea se completó”

Un agente que completa la reserva pero tarda 4 minutos con respuestas de 30 segundos cada una va a tener una tasa de abandono altísima. Los usuarios cortan el teléfono antes de que el agente termine de hablar. EVA-X mide conciseness, progresión y turn-taking porque en voz, la experiencia es tan crítica como el resultado.

Si querés profundizar en el tema, tenemos un análisis detallado en nuestra evaluación de agentes de voz.

Preguntas Frecuentes

¿Cómo se evalúa la calidad de un agente de voz con IA usando EVA?

EVA ejecuta conversaciones completas entre un simulador de usuario y el agente bajo prueba, sin intervención humana. Produce dos scores: EVA-A para precisión (¿completó la tarea? ¿fue fiel a las políticas? ¿el audio fue correcto?) y EVA-X para experiencia (¿fue conciso? ¿avanzó la conversación? ¿el timing fue natural?). Todo el proceso es automatizado y reproducible.

¿Qué diferencia hay entre un agente de voz cascade y uno audio-nativo?

Un cascade procesa en tres etapas separadas: speech-to-text, luego un LLM para razonar, luego text-to-speech para responder. Un audio-nativo (como los modelos speech-to-speech) procesa audio directamente sin pasar por texto intermedio. Según el benchmark de EVA, los cascade tienden a ser más precisos en tareas pero más lentos y verbosos; los audio-nativos tienen mejor timing pero menos consistencia.

¿Se puede usar EVA para evaluar agentes de voz en español?

Hoy no. El dataset actual tiene 50 escenarios exclusivamente en inglés y en el dominio de aerolíneas. El roadmap incluye soporte multilingüe y nuevos dominios, pero todavía no hay fecha concreta. La arquitectura del framework sí es extensible — si generás tus propios escenarios en español, el pipeline de evaluación debería funcionar.

¿Cuáles son las métricas más críticas para deployar un agente de voz en producción?

Consistencia (pass^3) y Speech Fidelity. La primera te dice si el agente puede resolver la misma tarea de forma confiable, no solo una vez de suerte. La segunda te dice si pronuncia bien los datos que importan — códigos, montos, números de vuelo. Un agente inconsistente o que distorsiona entidades nombradas no sobrevive en producción.

Conclusión

EVA pone sobre la mesa algo que la industria necesitaba: una forma rigurosa de medir que un agente de voz no solo haga su trabajo, sino que lo haga de una manera que la gente tolere usar. El tradeoff Accuracy-Experience que reveló el benchmark confirma lo que muchos sospechaban — optimizar para una dimensión degrada la otra, y ningún sistema actual resuelve ambas bien.

Para equipos que están evaluando o construyendo agentes de voz, EVA ofrece una línea base objetiva y reproducible. Que sea open source y no requiera anotadores humanos baja la barrera de entrada. Las limitaciones están claras — 50 escenarios en un solo idioma y dominio — pero el framework es extensible y el roadmap promete. Si estás en el espacio de agentes de voz, el repo en GitHub es el lugar donde arrancar.

EVA: Así Se Mide Si un Agente de Voz IA es Realmente Bueno