En el cruce de LLMs vs optimización de hiperparámetros, los algoritmos clásicos siguen arriba. Según un estudio publicado en arXiv en 2026, en espacios de búsqueda fijos los métodos como CMA-ES y TPE le ganan a los modelos de lenguaje, aunque un LLM que edita código achica bastante la diferencia.
La optimización de hiperparámetros (HPO) es el proceso de encontrar la mejor configuración de un modelo de machine learning, como la tasa de aprendizaje o la profundidad de un árbol, antes de entrenarlo. Los métodos clásicos (CMA-ES, TPE, optimización bayesiana) la resuelven probando combinaciones de forma sistemática. El enfoque con LLMs propone esas configuraciones razonando en lenguaje natural, dentro de un loop de proponer, entrenar y ajustar.
En 30 segundos
- En espacios fijos, ganan los clásicos. CMA-ES y TPE convergen mejor que un LLM puro cuando el espacio de búsqueda ya está definido.
- El LLM que edita código se acerca. Cuando puede modificar el espacio de búsqueda directamente, achica la brecha, pero no la supera del todo.
- Centaur es la mejor estrategia general. El híbrido usa el LLM en cerca del 30% de los trials y métodos clásicos en el 70% restante.
- Los LLMs sirven con presupuestos chicos. Por debajo de 30 evaluaciones, un LLM mejora el baseline inicial.
- El talón de Aquiles: rastrear estado. Los modelos pierden el hilo entre trials y se contradicen en los valores numéricos.
¿Qué son los algoritmos clásicos de optimización de hiperparámetros?
Ponele que entrenás una red neuronal. Antes de apretar “run” tenés que decidir un montón de cosas: tasa de aprendizaje, tamaño del batch, cuántas capas, cuánto dropout. Esos son los hiperparámetros. No los aprende el modelo solo, los elegís vos (o un algoritmo por vos), y de esa elección depende que el modelo vuele o que sea un desastre.
Antes de que aparecieran los LLMs en esta tarea, el laburo lo hacían tres familias de métodos:
- CMA-ES. Una estrategia evolutiva que ajusta una distribución sobre el espacio de búsqueda según los mejores resultados. Anda muy bien en espacios continuos.
- TPE (Tree-structured Parzen Estimator). Modela qué configuraciones tienden a dar buenos y malos resultados, y muestrea de las prometedoras. Es el motor de varias librerías de AutoML.
- Optimización bayesiana. Construye un modelo probabilístico del rendimiento y decide dónde probar después para aprender lo máximo posible por evaluación.
El punto fuerte de estos métodos es que entienden el espacio numérico. CMA-ES “sabe” que si 0.01 funcionó mejor que 0.001, conviene moverse hacia ahí. No razona con palabras: razona con la geometría del problema. Por eso son el estándar en AutoML comercial desde hace años. Más contexto en cómo se entrenan los modelos de lenguaje.
¿Cómo usan los LLMs la optimización de hiperparámetros?
La idea es seductora. Si un modelo de lenguaje ha leído miles de papers y repos donde la gente eligió hiperparámetros, debería tener una intuición de qué configuraciones andan para cada tipo de problema. En teoría, eso es conocimiento previo que CMA-ES no tiene.
El flujo típico de HPO con LLM es un loop: el modelo propone una configuración, vos la entrenás, le reportás el resultado, y el modelo ajusta su próxima propuesta. Repetís hasta quedarte sin presupuesto. Suena parecido a la optimización bayesiana, salvo que acá el “modelo” del problema vive en lenguaje natural.
El estudio de 2026 separa dos enfoques que se suelen confundir:
- Selección de opciones. El LLM elige valores dentro de un espacio de búsqueda fijo que vos ya definiste. Compite mano a mano contra CMA-ES y TPE en el mismo terreno.
- Edición de código. El LLM no solo elige valores: reescribe el espacio de búsqueda, agrega o saca hiperparámetros, cambia rangos. Acá hace algo que un método clásico no puede hacer solo.
Esa segunda modalidad es la interesante. Y es donde el LLM deja de ser un optimizador numérico flojo para convertirse en algo más parecido a un ingeniero de ML que reformula el problema.
¿Superan realmente los LLMs a los métodos clásicos?
Acá viene el resultado central, y no es el que muchos esperaban. En espacios de búsqueda fijos, los métodos clásicos ganan. Punto.
El estudio comparó modelos frontera (en el rango de Claude Opus 4.6 y Gemini 3.1) contra un modelo open-weight de 27B parámetros, y todos contra CMA-ES y TPE. Cuando la tarea era pura selección de opciones, los algoritmos clásicos convergieron mejor y más rápido. Los modelos frontera anduvieron por encima del open-weight de 27B, lo cual era esperable, pero ninguno le sacó ventaja al optimizador clásico en su propia cancha. En la arquitectura y optimización de GPT profundizamos sobre esto.
La cosa cambia cuando el LLM puede editar código. Ahí cierra la brecha de forma notable, porque empieza a proponer mejores espacios de búsqueda en vez de pelear dentro de uno mediocre. ¿Lo supera de manera consistente? Todavía no, según los datos del paper original en arXiv. Lo iguala en varios escenarios, lo gana en algunos, pero no hay una victoria limpia y general.
Tomalo con pinzas igual: los benchmarks dependen mucho del tipo de problema y del presupuesto de evaluaciones. La conclusión robusta es más modesta. El LLM no es la bala de plata que reemplaza a CMA-ES, pero tampoco es el chiste que algunos asumían.
¿Por qué los LLMs tienen dificultades con esta tarea?
Subís el problema al modelo, te tira una buena primera propuesta, le reportás resultados de cinco trials, y de repente te recomienda una configuración que ya había descartado hace dos pasos, o te da un número que contradice lo que dijo antes. Si alguna vez intentaste usar un LLM como optimizador, esto te resulta familiar.
Las limitaciones que encontró el estudio son bastante concretas:
- Cuesta rastrear el estado entre trials. El modelo se pierde en el historial de pruebas previas y no mantiene una imagen coherente de qué ya exploró.
- Errores de memoria recurrentes. Repite configuraciones, olvida resultados anteriores o los reinterpreta mal.
- Inconsistencia numérica. Da recomendaciones que no son estables: pedile lo mismo dos veces y puede sugerir valores distintos sin razón.
La raíz del problema es de diseño. Un LLM está optimizado para generar texto plausible, no para hacer optimización iterativa sobre un espacio numérico. No tiene una representación interna del gradiente ni de la distribución de resultados, como sí la tiene CMA-ES. Razona “de memoria” sobre un proceso que en realidad pide contabilidad fría y precisa, y eso se nota cuando el horizonte de evaluaciones se alarga.
¿Qué es el método Centaur y qué resultados dio?
Centaur es el enfoque híbrido que propone el estudio, y el nombre no es casualidad: mitad humano, mitad caballo, cada parte haciendo lo que mejor sabe. La receta es simple. Usá el LLM en una fracción de los trials (alrededor del 30%) y dejá que los métodos clásicos manejen el resto (cerca del 70%).
¿Por qué funciona? Porque cada uno aporta lo suyo en el momento justo. El LLM es bueno explorando: propone espacios de búsqueda nuevos, sugiere rangos que a un humano apurado no se le hubieran ocurrido, arranca la búsqueda en una zona razonable. Los métodos clásicos son buenos refinando: una vez que hay un espacio decente, CMA-ES y TPE convergen con una eficiencia que el LLM no tiene. Relacionado: el ajuste fino de ChatGPT.
Los resultados van en esa dirección. Centaur mostró mejor convergencia que el LLM puro, y se ubicó comparable o por encima del método clásico puro en horizontes de evaluación largos. No es magia: es repartir el trabajo según las fortalezas reales de cada técnica, en vez de pedirle a una sola que haga todo.
¿En qué casos los LLMs sí son competitivos?
No todo es derrota para los modelos de lenguaje. Hay tres escenarios donde realmente valen la pena:
- Presupuestos muy chicos. Por debajo de 30 evaluaciones, el LLM mejora el baseline. Cuando casi no tenés trials, su intuición previa vale más que el arranque a ciegas de un método clásico.
- Exploración inicial. Si no sabés qué rangos usar, el LLM te propone un punto de partida sensato y te ahorra el ensayo y error del principio.
- Espacios no estructurados. Cuando el problema pide editar código o reformular el espacio de búsqueda, el LLM puede hacerlo y los clásicos no.
La regla mental queda clara. Cuanto menos presupuesto y más incertidumbre sobre el espacio, más conviene el LLM. Cuanto más exhaustiva y numérica sea la búsqueda, más conviene el clásico.
| Criterio | LLM puro | Clásico (CMA-ES / TPE) | Híbrido (Centaur) |
|---|---|---|---|
| Espacio de búsqueda fijo | Flojo | El mejor | Muy bueno |
| Presupuesto chico (<30 evals) | Competitivo | Arranca lento | Bueno |
| Horizonte largo de evaluaciones | Pierde el hilo | Excelente | El mejor |
| Edición del espacio de búsqueda | Sí, su fuerte | No puede | Sí (vía LLM) |
| Consistencia numérica | Baja | Alta | Alta |

¿Qué implica esto para desarrolladores y data scientists?
Si tu trabajo es entrenar modelos, esto te cambia el criterio de elección de herramienta. La recomendación práctica del estudio se puede resumir así:
- Usá LLM puro solo con presupuesto chico. Si tenés menos de 30 trials disponibles, el modelo te da una ventaja real sobre arrancar a ciegas.
- Usá método clásico para búsqueda exhaustiva. Si vas a correr cientos de evaluaciones en un espacio definido, CMA-ES o TPE te van a rendir más.
- Usá híbrido como estrategia por defecto. Para la mayoría de los casos del mundo real, Centaur es la apuesta más segura.
Hay una implicancia más para las herramientas de AutoML. Lo más probable es que las próximas versiones integren al LLM en la etapa de exploración y reformulación del espacio, y dejen el refinamiento numérico en manos de los optimizadores de siempre. El LLM como copiloto de la búsqueda, no como reemplazo. Cubrimos ese tema en detalle en cómo se optimiza Claude.
Eso sí: nada de esto sale gratis en cómputo. Correr decenas o cientos de trials de entrenamiento necesita servidores con GPU disponibles, y si estás armando esa infraestructura para experimentar, podés mirar opciones de cloud y hosting en donweb.com. El método más eficiente del mundo no sirve de mucho si te quedás sin máquina a mitad de la búsqueda.
Errores comunes al usar LLMs para optimizar hiperparámetros
- Pedirle al LLM que recuerde todo el historial sin ayuda. Pierde el estado entre trials. Pasale un resumen estructurado de qué configuraciones ya probaste y qué dieron, en cada paso.
- Usar LLM puro en presupuestos grandes. Cuanto más largo el horizonte, peor convergencia tiene. Si vas a correr 200 evaluaciones, el clásico le gana sin discusión.
- Confiar en un solo número que tira el modelo. Las recomendaciones numéricas de un LLM son inconsistentes. Pedile varias y promediá, o validá con un método clásico antes de comprometer cómputo.
- Definir un espacio de búsqueda malo y culpar al optimizador. Si los rangos están mal, ningún método zafa. Acá el LLM ayuda justamente porque puede sugerir y editar ese espacio.
Preguntas Frecuentes
¿Pueden los LLMs superar a los algoritmos clásicos de optimización de hiperparámetros?
En espacios de búsqueda fijos, no. Según el estudio de arXiv de 2026, CMA-ES y TPE convergen mejor que un LLM puro. Cuando el LLM puede editar el código del espacio de búsqueda, achica la brecha, pero no la supera de forma consistente.
¿Qué es mejor para tuning: un LLM o CMA-ES/TPE?
Depende del presupuesto. Con menos de 30 evaluaciones, el LLM es competitivo y mejora el baseline. Con búsquedas largas y exhaustivas, CMA-ES y TPE rinden más. Para la mayoría de los casos, el híbrido Centaur es la mejor opción.
¿Por qué los LLMs tienen dificultades con la optimización de hiperparámetros?
Porque están diseñados para generar texto, no para optimización iterativa sobre espacios numéricos. Les cuesta rastrear el estado entre trials, repiten configuraciones por errores de memoria y dan recomendaciones numéricas inconsistentes.
¿Qué es el enfoque híbrido Centaur?
Centaur combina ambos mundos: usa el LLM en alrededor del 30% de los trials para explorar y reformular el espacio, y métodos clásicos en el 70% restante para refinar. Logra mejor convergencia que el LLM puro y resultados comparables o superiores al clásico en horizontes largos.
¿Cuándo conviene usar un LLM para buscar hiperparámetros?
Cuando el presupuesto de evaluaciones es muy chico, cuando necesitás un punto de partida y no sabés qué rangos usar, o cuando el problema requiere editar el espacio de búsqueda, algo que los métodos clásicos no pueden hacer solos.
Conclusión
El veredicto de 2026 es matizado y por eso vale la pena. Los LLMs no destronaron a CMA-ES ni a TPE en la optimización de hiperparámetros. En su propia cancha, los espacios fijos, los clásicos siguen siendo mejores. Pero el LLM que edita código mostró algo nuevo: puede reformular el problema, no solo resolverlo.
Lo accionable es claro. Si estás armando un pipeline de tuning, no elijas bando: combiná. Usá el LLM para explorar y arrancar, dejá que los optimizadores clásicos refinen, y reservá el LLM puro para esos casos de presupuesto mínimo donde su intuición previa pesa. El futuro de la HPO no parece ser “LLM o clásico”, sino los dos trabajando en equipo, que es justamente la apuesta de Centaur.
