Wayfinder Router: ruteo de prompts sin llamar a otro modelo

En pocas palabras: Wayfinder Router, liberado en junio de 2026, enruta prompts sin llamar a otro LLM. Asigna un puntaje determinista de 0.0 a 1.0 según estructura del texto, y su gateway compatible con OpenAI despacha a local o cloud usando un umbral configurable que podés calibrar con tus propios datos.

Wayfinder Router metió un giro original en el ruteo de prompts para LLMs. A fines de junio de 2026, el proyecto liberó su primera versión estable en PyPI con una premisa clara: decidir si una consulta va a un modelo local o a la nube sin llamar a otro modelo, usando solo la estructura del texto. El puntaje va de 0.0 (sencillo) a 1.0 (complejo) y todo el cálculo es offline y determinista.

En 30 segundos

  • Ruteo sin modelos extra: Wayfinder Router analiza largo, encabezados, listas y código, no necesita un LLM para decidir a dónde mandar cada prompt.
  • Puntaje de 0.0 a 1.0: comparás el score con un umbral configurable (por defecto 0.5) y el router despacha al modelo local o al cloud de forma determinista.
  • Calibración con datos propios: el comando calibrate lee un JSONL con ejemplos etiquetados y encuentra el umbral óptimo sin gastar un centavo en APIs, según la versión de junio de 2026.
  • Gateway compatible con OpenAI API: levantás un servidor en localhost, cambiás la URL de tu cliente y las apps existentes enrutan sin modificar código.
  • Todo offline, todo auditable: la misma consulta siempre da el mismo score, sin depender de la red ni de la aleatoriedad de un modelo.

Wayfinder Router es un router determinista de prompts para LLMs que puntúa la complejidad estructural de una consulta —largo, presencia de encabezados, listas, bloques de código— sin llamar a ningún modelo de lenguaje. Según la documentación de la primera versión estable lanzada en junio de 2026, asigna un valor entre 0.0 y 1.0, lo compara con un umbral que vos configurás, y decide en milisegundos si la consulta se procesa en tu modelo local o en un proveedor cloud. Desarrollado por Lorenzo Testa y disponible como paquete Python y CLI, corre completamente offline, no consume tokens de decisión y es calibrable con datasets propios.

¿Por qué usar un router determinista para consultas LLM?

Cualquiera que haya armado una app con modelos de lenguaje se topó con el mismo problema: tenés consultas triviales que un modelo chico resuelve sin chistar, y otras que necesitan sí o sí un GPT-4o o Claude Opus. Pasar todo por la nube quema presupuesto y suma latencia innecesaria; mandar todo a local te deja corto cuando aparece una pregunta con miga. Los routers de prompts existen desde hace tiempo, pero la mayoría —RouteLLM, OpenRouter en modo Auto, LiteLLM— usan un modelito para decidir a dónde va cada consulta. O sea, pagás un viaje extra de inferencia antes de arrancar. Y ese modelo puede alucinar la decisión, devolver distinto para el mismo prompt o simplemente fallar cuando la API está caída. Te puede servir nuestra cobertura de la guía de Microsoft Intune.

Acá es donde el ruteo determinista de prompts LLM cambia las reglas: en lugar de preguntarle a una IA si un prompt es difícil, mirás la forma del prompt. ¿Tiene 300 tokens y un par de preguntas cortas? Va a local. ¿Tiene 2000 tokens, dos tablas y un bloque de código? Derecho a la nube. Sin latencia extra, sin costos ocultos, sin llamadas de más. La decisión es binaria, predecible y la podés auditar.

¿Qué es Wayfinder Router y cómo funciona?

Wayfinder Router es un motor de puntuación estructural. Agarrás un prompt, lo pasás por el router y te devuelve un score de complejidad entre 0.0 y 1.0. Para calcularlo, la herramienta examina: el largo del texto, si tiene encabezados markdown, listas numeradas o con viñetas, y si metiste bloques de código. Nada de semántica, nada de embeddings. Solo estructura.

Según el repositorio oficial, el proceso es completamente offline y determinista. Eso quiere decir que si le das el mismo prompt diez veces, diez veces te devuelve el mismo número. Comparás ese número con un umbral configurable (por defecto 0.5) y listo: si el score es mayor o igual al umbral, despachás a la nube; si no, a local. No hay modelo, no hay API key, no hay latencia de red. Lo bajás con pip, lo configurás con un archivo TOML y arranca.

¿Cómo configurar el umbral y los proveedores en wayfinder-router.toml?

La configuración va en un archivo wayfinder-router.toml que generás con wayfinder-router init. Ahí definís dos o más proveedores: uno local y otro cloud. El archivo se ve más o menos así: En nuestra guía sobre ChatGPT profundizamos sobre esto.

[router]
threshold = 0.5

[[providers]]
name = "local-llama"
base_url = "http://localhost:11434/v1"
model = "llama3.2"
api_key_env = "OLLAMA_API_KEY"

[[providers]]
name = "openai-gpt4o"
base_url = "https://api.openai.com/v1"
model = "gpt-4o"
api_key_env = "OPENAI_API_KEY"

Fijate que las claves de API nunca se guardan en el archivo: las lee de variables de entorno (OLLAMA_API_KEY, OPENAI_API_KEY) que vos seteás aparte. Eso es una gran ventaja para evitar leaks si por error subís la config a un repositorio. Después podés chequear que todo esté en orden con wayfinder-router doctor: te tira un diagnóstico de conectividad, modelos disponibles y si el umbral actual tiene sentido.

¿Cómo calibrar el umbral con datos propios usando wayfinder-router calibrate?

El umbral por defecto de 0.5 zafa, pero lo que de verdad hace la diferencia es calibrarlo con tu propio tráfico. El comando wayfinder-router calibrate lee un archivo JSONL donde cada línea es un objeto con {text, label}. Por ejemplo:

{"text": "Hola, ¿cómo estás?", "label": "simple"}
{"text": "Analizá esta query SQL de 20 líneas y proponé índices", "label": "complex"}

Corrés wayfinder-router calibrate data.jsonl --mode threshold --objective knee --costs local=0.2,cloud=1.0 y el sistema, sin pegarle a ninguna API, calcula el score estructural de cada prompt y busca el umbral que mejor separa “simple” de “complex” según la relación costo-beneficio que le pasaste. El output es un fragmento de configuración listo para copiar en tu wayfinder-router.toml. Nada de prueba y error a ciegas. Complementá con nuestra guía sobre modelos de lenguaje.

¿Qué ventajas tiene frente a otros routers?

CaracterísticaWayfinder RouterRouteLLMOpenRouter (Auto)LiteLLM
Llamada a modelo para decidirNoSí (modelo liviano)No (ruteo por costo/reglas)
DeterministaSí, mismo prompt = mismo scoreNo (depende del modelo)NoConfigurable, pero por reglas
AutohospedableSí, corre en localNo (necesita acceso a LLM)No (servicio cloud)Parcial
Calibrable con datos propiosSí (offline, con CLI)NoNoNo
Gateway OpenAI-compatibleNo
Análisis estructural del promptSí (largo, headers, listas, código)No (usa embeddings del modelo)NoNo
ruteo determinista de prompts llm diagrama explicativo

La gran diferencia es que Wayfinder no necesita que un LLM le diga qué hacer. Eso elimina el costo de la decisión y la posible inconsistencia. En la práctica, cuando tenés miles de consultas por minuto, cada llamada extra al modelo de ruteo se convierte en plata y latencia que podrías estar ahorrando. Y como el análisis es puramente estructural, podés auditar por qué cada prompt fue a local o a la nube sin depender de una caja negra probabilística.

¿Cuáles son sus limitaciones y cuándo no conviene usarlo?

Ojo, que sea determinista no lo hace perfecto. El puntaje estructural no captura la dificultad puramente semántica. Ponele que le pasás “¿cuál es el número primo número 100?” — un prompt cortito, sin formato, que un modelo chico probablemente resuelva mal. El score va a ser bajo y el router lo manda a local, dándote un resultado flojo. Los indicadores léxicos que intentan detectar tareas matemáticas o de test vienen desactivados por defecto, porque en pruebas ciegas no generalizaron bien. El propio proyecto advierte que en prompts cortos pero difíciles el router puede comportarse de manera comparable a aleatorio.

Para escenarios donde la complejidad no se refleja en la estructura —razonamiento lógico avanzado, cuentas matemáticas en una sola oración, preguntas con mucho contexto implícito— un router basado en modelos embebidos o clasificadores entrenados puede dar mejor resultado. La clave está en calibrar con datos reales. Si hacés ese paso, el umbral ajustado mejora bastante el desempeño, pero no hace magia con los casos duros. Sobre eso hablamos en la guía completa de Google.

¿Cómo integrar Wayfinder Router en tu aplicación con el gateway?

El gateway es un servidor HTTP que habla el mismo protocolo que la API de OpenAI. Lo levantás con wayfinder-router serve --port 8088 y a partir de ahí tu cliente Python, JS o lo que uses apunta a http://localhost:8088/v1. Sin cambiar ni una línea de código (más que la URL base), todas las consultas pasan por el router automáticamente.

El servidor expone un endpoint /v1/chat/completions y te permite inspeccionar la decisión mediante los headers de respuesta: x-wayfinder-router-model te dice a qué proveedor se despachó la consulta, y x-wayfinder-router-score el puntaje asignado. Para probar, tirás un curl con un mensaje y mirás los headers. Integrarlo con alguna app que ya tengas hosteada, incluso en un VPS con donweb.com o donde sea, es cuestión de cambiar la variable de entorno de tu API base y listo.

Errores comunes

  • No calibrar el umbral y quedarse con el default de 0.5. Ese valor es un punto de partida genérico, no tiene idea de si tus consultas locales son reseñas de 100 palabras o informes de 500. Sacar 15 minutos para armar un JSONL con ejemplos etiquetados te ahorra plata y mejora la precisión del ruteo.
  • Creer que el score refleja dificultad real. El número mide estructura, no si el prompt pide una derivada o un chiste. Si trabajás con dominios muy técnicos donde una oración corta puede ser endiabladamente compleja, complementá con un segundo paso de validación o seguí usando un modelo de ruteo tradicional para esos nichos.
  • No proteger las variables de entorno. Guardar la API key en el archivo TOML es tentador para una prueba rápida, pero si ese archivo vuela a un repo público perdiste. Usá siempre api_key_env y variables en tu shell o en un gestor de secretos.

Preguntas Frecuentes

¿Wayfinder Router necesita conectarse a internet para funcionar?

No, el análisis de complejidad es completamente offline. Solo necesitás conexión cuando el gateway despacha la consulta al proveedor cloud, pero la decisión de ruteo y la calibración corren en tu máquina sin acceso a red.

¿Puedo usar más de dos modelos en la configuración?

Sí, podés definir varios proveedores en el archivo TOML y, si combinás el router con reglas adicionales, asignar umbrales por niveles. La CLI de calibración incluso admite un modo tiers para encontrar puntos de corte que manden consultas muy simples a un modelo chico, las intermedias a uno mediano y las complejas a uno grande.

¿Cómo se compara con un router aleatorio?

Según los datos del proyecto, cuando el prompt es largo o trae elementos estructurales claros, Wayfinder supera por mucho a una decisión al azar. En prompts cortos sin formato, como “¿Cuál es la capital de Burkina Faso?”, el comportamiento se aproxima a aleatorio si no calibraste. Por eso recomiendan siempre correr la calibración con ejemplos propios.

¿El gateway agrega latencia significativa?

La latencia que suma el router es despreciable (menos de 5 milisegundos en la mayoría de los casos) porque solo calcula el score estructural del texto, sin tocar ningún modelo de lenguaje ni hacer request a una API externa en esa etapa.

Conclusión

Wayfinder Router le pega donde otros routers vienen flojos: eliminar el costo y la variabilidad de un modelo de decisión. Con análisis estructural puro, calibración offline y un gateway compatible con OpenAI, cualquiera que esté sirviendo una app con LLMs puede arrancar a rutear entre local y cloud en una tarde. La limitación con los prompts semánticamente complejos pero sin estructura es real, pero se mitiga apenas juntás un puñado de ejemplos propios y ajustás el umbral. Para equipos que ya corren modelos locales y quieren cortar la factura de API sin meter otro servicio más, es una herramienta que llega en el momento justo.

Fuentes

Desplazarse hacia arriba