Proxy-KD: destilación de conocimiento LLM sin acceso

En pocas palabras: El framework Proxy-KD, presentado en la conferencia AAAI 2025, permite destilar LLMs de caja negra como GPT-4 usando un modelo intermedio alineado que extrae distribuciones de probabilidad suaves sin acceso a logits internos, superando a la destilación tradicional en benchmarks como BBH y GSM8K.

Destilar conocimiento de un LLM propietario como GPT-4 sin acceso a sus tripas era, hasta ahora, un dolor de huevos. El paper que presentaron investigadores de múltiples universidades en la conferencia AAAI 2025 (sí, las conferencias siempre van un año atrás) propone Proxy-KD, un método que usa un modelo intermedio alineado para extraer distribuciones de probabilidad suaves de cualquier modelo de caja negra, y los resultados en benchmarks como BBH y GSM8K le pasan el trapo a la destilación tradicional.

La destilación de conocimiento LLM es una técnica que transfiere el saber de un modelo grande y potente (el profesor) a uno más chico y eficiente (el estudiante), para que el segundo rinda casi igual pero gaste muchos menos recursos. Proxy-KD, específicamente, es un framework de código abierto presentado en 2025 que permite hacer esta transferencia incluso cuando el profesor es una API cerrada que solo devuelve texto, sin exponer los logits internos.

En 30 segundos

Proxy-KD resuelve la destilación de modelos de caja negra usando un proxy que se alinea con el profesor mediante DPO (Direct Preference Optimization).
Supera a la destilación tradicional con hard labels y también a métodos de caja blanca como MiniLLM, sacando 53.40% en BBH y 53.07% en GSM8K con Llama-2-70B como proxy.
El truco está en las soft labels que el proxy alineado genera, ponderadas por muestra según qué tan bien alineado está el proxy para ese ejemplo puntual.
No todo es color de rosa: el proceso de alineación del proxy con DPO es costoso y el paper solo lo probó con modelos Llama, así que tomalo con pinzas si pensás en Mistral o Qwen.
El código está disponible en GitHub, así que podés probarlo vos mismo si tenés la infraestructura (y la paciencia).

¿Qué problema resuelve Proxy-KD en la destilación de modelos de lenguaje?

Ponele que querés correr un modelo piola en tu servidor local, algo que no te cueste una fortuna en GPUs pero que razone más o menos como GPT-4. La teoría dice que podés entrenar un modelo chico para que imite al grande. El problema es que los modelos grosos que más te interesan (GPT-4, Claude, Gemini) son cajas negras: les mandás texto, te devuelven texto, y nunca ves los logits. Sin los logits, la destilación clásica de caja blanca no existe.

La alternativa tradicional de caja negra se limita a tomar la respuesta final del profesor como “hard label” y entrenar al estudiante para que la reproduzca. Es como aprender a cocinar mirando solo el plato terminado: perdés todo el proceso intermedio, las dudas, las alternativas que el chef consideró y descartó. Según el paper de la conferencia AAAI 2025, este enfoque deja muchísima información en la mesa y el estudiante termina rindiendo bastante peor de lo que podría.

Proxy-KD ataca exactamente este punto ciego. La idea es meter un modelo proxy en el medio que sí te da acceso a sus estados internos —porque es tuyo, lo corrés vos—, alinearlo quirúrgicamente con el profesor de caja negra, y después usarlo como fuente de esas distribuciones de probabilidad suaves que el estudiante necesita para aprender de verdad.

¿Cómo se alinea el modelo proxy con el profesor en Proxy-KD?

Acá está el núcleo duro del paper y donde los autores hicieron el laburo más interesante. El proceso de alineación tiene dos fases bien marcadas, y si alguna vez ajustaste un modelo con DPO, la segunda te va a sonar familiar. Relacionado: nuestra guía de seguridad de Intune.

Fase 1 — Supervised Fine-Tuning con warm-up. Agarrás tu proxy (ponele, Llama-2-70B) y lo entrenás de forma supervisada con datos generados por el profesor de caja negra. Nada revolucionario hasta acá: le das un prompt, el profesor te devuelve una respuesta, y vos ajustás el proxy para que aprenda a reproducir ese comportamiento. Pero esto solo no alcanza —el proxy aprende la superficie, no la profundidad de las preferencias del profesor—, así que viene la fase 2.

Fase 2 — Preference Optimization con DPO. Ahora ponés al proxy a generar sus propias respuestas para cada prompt y las comparás con las del profesor. El objetivo es que el proxy aprenda a preferir sistemáticamente las respuestas del profesor sobre las suyas. Esto se hace con Direct Preference Optimization, y se itera: el proxy genera, comparás, ajustás, volvés a generar, volvés a comparar. Así hasta que convergen las preferencias —o hasta que te cansás de gastar plata en cómputo, lo que pase primero—.

Lo piola de este loop iterativo es que el proxy no solo copia respuestas, sino que internaliza el criterio del profesor. Es la diferencia entre memorizar las respuestas de un examen y entender cómo piensa el que corrige.

¿Qué resultados experimentales tiene Proxy-KD?

Vamos a los números, que es lo que importa. Los autores evaluaron Proxy-KD en cuatro benchmarks: AGIEval, ARC, BBH y GSM8K, usando Llama-2-70B como proxy y Llama-2-7B como estudiante. La tabla comparativa del paper es bastante elocuente.

En BBH (BIG-Bench Hard, tareas de razonamiento complejo), Proxy-KD sacó 53.40%, contra 48.95% de la destilación vainilla de caja negra y 50.66% de MiniLLM, que es un método de caja blanca. En GSM8K (problemas matemáticos), la diferencia es todavía más marcada: 53.07% para Proxy-KD, 47.38% para destilación vainilla, y acá MiniLLM directamente se cayó a pedazos con 38.74% (sí, en serio).

Lo interesante es que Proxy-KD también le gana a GKD (Generalized Knowledge Distillation) y a TAKD (que usa proxy sin alinear). De hecho, TAKD empeora el rendimiento respecto a la destilación vainilla de caja negra. O sea, meter un proxy sin alinear no solo no ayuda: te entierra. Para más detalles técnicos, mirá la guía completa sobre ChatGPT.

Método	BBH (%)	GSM8K (%)	ARC (%)	AGIEval (%)
Black-box KD (vainilla)	48.95	47.38	66.55	33.48
White-box KD (MiniLLM)	50.66	38.74	66.21	34.95
TAKD (proxy sin alinear)	46.82	45.19	63.91	32.10
Proxy-KD (proxy alineado)	53.40	53.07	67.24	36.42
Solo proxy alineado (white-box)	52.13	51.78	66.80	35.10

destilación de conocimiento llm diagrama explicativo

La última fila de la tabla cuenta otra historia interesante: usaron el proxy alineado directamente como profesor de caja blanca (sin el modelo original de caja negra en el loop). Los resultados son buenos, pero quedan por debajo de Proxy-KD. Esto confirma que el profesor de caja negra original sigue aportando valor incluso después de alinear el proxy —no es redundante, suma—.

¿Qué papel juega el peso por muestra en la destilación?

Otro detalle técnico copado del paper es el sistema de pesos por muestra. No todas las predicciones del proxy son igual de confiables —en algunas muestras el proxy está más alineado con el profesor que en otras—. Los autores meten un coeficiente que refleja esa calidad de alineación para cada ejemplo individual, derivado de las mismas señales de preferencia que salen del proceso de DPO.

El estudiante entonces aprende a prestarle más atención a las distribuciones suaves del proxy cuando este está bien alineado con el profesor, y a tomarlas con pinzas cuando la alineación flojea. Es un mecanismo de atención a nivel de muestra que evita que el ruido de las predicciones mal alineadas contamine el entrenamiento. Simple, elegante, y por lo que muestran los benchmarks, funciona.

¿Cuáles son las limitaciones de Proxy-KD?

Vamos con lo que no me cierra del todo, porque el paper es sólido pero tiene sus asteriscos.

El costo de alineación del proxy no es trivial. La fase de DPO requiere muestreo online —en cada iteración el proxy genera respuestas nuevas— y si estás usando un proxy de 70B parámetros, eso se traduce en tiempo y plata. Los autores no dan cifras concretas de cuántas horas de GPU insumió el proceso completo, y habría que ver si escala en la práctica para equipos que no tienen acceso a clusters enterprise. Si estás hosteando tu infraestructura de entrenamiento, incluso con un proveedor local como donweb.com que tiene opciones de cloud y servidores dedicados en Argentina, entrenar modelos de este porte requiere planificación financiera —no es algo que hacés un finde con la tarjeta de crédito—.

Solo probaron con modelos Llama. El estudio se limitó a la familia Llama 2 (7B, 13B, 70B) tanto para proxy como para estudiante. No hay experimentos con Qwen, Mistral, Falcon ni otras arquitecturas. ¿Funciona igual de bien con un proxy que tiene otra distribución de atención o otro tokenizer? La intuición dice que sí —el método es agnóstico a la arquitectura del proxy—, pero en machine learning la intuición a veces te deja pegado contra la pared. Faltan experimentos de ablación con otras familias de modelos.

El profesor de caja negra usado fue GPT-3.5-Turbo. Para ser un paper presentado en 2025, usar GPT-3.5 como profesor deja un sabor agridulce. Los autores reconocen que habría que validar con modelos más recientes como GPT-4 o Claude 3, donde la brecha entre el profesor y el proxy podría ser más grande y el desafío de alineación más complejo. Lo explicamos a fondo en nuestra guía de modelos de lenguaje.

¿Cómo se compara Proxy-KD con otros métodos de destilación?

La comparación que hace el paper cubre tres familias de métodos, y acá va el resumen sin anestesia.

Destilación de caja blanca (MiniLLM, GKD). Estos métodos asumen que tenés acceso a los logits del profesor, así que en teoría juegan con ventaja. Sin embargo, Proxy-KD les gana en la mayoría de los benchmarks. MiniLLM particularmente se derrumba en GSM8K (38.74%), lo cual es llamativo porque se supone que tener acceso a los estados internos te da más información, no menos. Mi hipótesis: la diferencia de arquitectura entre profesor y estudiante introduce un desajuste que MiniLLM no maneja bien, mientras que Proxy-KD, al trabajar con distribuciones ya adaptadas vía el proxy alineado, suaviza ese problema.

Destilación de caja negra vainilla. La línea de base más obvia y la que Proxy-KD deja en ridículo. Usar solo hard labels del profesor es como estudiar para un parcial viendo solo el resultado final de cada problema sin el desarrollo. Perdés demasiada señal.

TAKD (proxy sin alinear). Este es el dato más interesante de la comparación. TAKD mete un proxy pero sin la fase de alineación con DPO, y no solo no mejora la destilación vainilla: la empeora. Un proxy desalineado inyecta ruido en lugar de señal. Esto valida que la fase 2 (preference optimization) no es un adorno cosmético —es el corazón del método—.

Qué está confirmado / Qué no

Confirmado: Proxy-KD supera a todos los baselines de caja negra y a MiniLLM en BBH y GSM8K. El paper fue aceptado en la conferencia AAAI 2025, lo cual es un filtro de calidad razonable (aunque no infalible, ojo). El código está disponible en GitHub.
No confirmado: No hay benchmarks con profesores más potentes como GPT-4 o Claude 3. Tampoco con arquitecturas que no sean Llama. El costo real de alineación en horas-GPU no está reportado de forma transparente. La reproducción independiente por parte de terceros todavía es escasa —los números son del equipo que desarrolló el método, y ya sabemos cómo es eso: el sesgo de autor existe, por más que no sea intencional—.

Errores comunes al interpretar Proxy-KD

Creer que reemplaza la destilación de caja blanca. No. Si tenés acceso a los logits del profesor, seguís teniendo más información que con Proxy-KD. Este método es para el caso específico donde el profesor es una API cerrada. No es mejor que la caja blanca: es lo mejor que podés hacer cuando la caja blanca no está disponible.

Asumir que cualquier proxy sirve. El experimento con TAKD es lapidario: un proxy sin alinear te hunde los números. No es “meto cualquier modelo grande en el medio y listo”. La alineación con DPO es el 80% del trabajo. Más contexto en la guía que cubre todo sobre Google.

Pensar que el proxy alineado se vuelve mejor que el profesor original. El paper muestra claramente que usar solo el proxy alineado como teacher da peores resultados que Proxy-KD con el profesor de caja negra en el loop. El profesor original sigue siendo irremplazable: el proxy es un puente, no un reemplazo.

Ignorar el costo de la fase 2. Si estás considerando implementar Proxy-KD en tu empresa, no subestimes el muestreo online de DPO. Con un proxy de 70B parámetros, cada iteración te puede llevar horas dependiendo de tu infraestructura. Hacé números antes de largarte.

Preguntas Frecuentes

¿Qué es la destilación de conocimiento en modelos de lenguaje?

Es una técnica de compresión de modelos donde un LLM grande y costoso (profesor) transfiere su conocimiento a uno más chico y eficiente (estudiante). El estudiante aprende imitando las distribuciones de probabilidad del profesor, no solo sus respuestas finales. El objetivo es mantener la mayor calidad posible gastando muchos menos recursos en inferencia.

¿Cómo funciona Proxy-KD para destilar conocimiento?

Proxy-KD introduce un modelo intermedio (proxy) que se alinea con el profesor de caja negra usando Supervised Fine-Tuning y Direct Preference Optimization. Una vez alineado, el proxy genera distribuciones de probabilidad suaves —porque es un modelo abierto que vos controlás— y el estudiante aprende de esas distribuciones. Un sistema de pesos por muestra filtra las predicciones mal alineadas para que no contaminen el entrenamiento.

¿Qué diferencia hay entre destilación de caja blanca y caja negra?

La destilación de caja blanca requiere acceso a los logits (probabilidades internas) del modelo profesor. La de caja negra solo tiene acceso al texto de salida. La caja blanca transfiere más información y suele dar mejores resultados, pero no es viable cuando el profesor es una API propietaria como GPT-4. Proxy-KD opera en el régimen de caja negra.

¿Qué resultados tiene Proxy-KD en benchmarks?

Con Llama-2-70B como proxy y Llama-2-7B como estudiante, Proxy-KD obtiene 53.40% en BBH, 53.07% en GSM8K, 67.24% en ARC y 36.42% en AGIEval. Supera a la destilación vainilla de caja negra, a MiniLLM, a GKD y a TAKD en la mayoría de las métricas. Los resultados completos están en el paper presentado en la conferencia AAAI 2025.

¿Cuáles son las limitaciones de Proxy-KD?

Las principales limitaciones son tres: el costo computacional del DPO con muestreo online, la validación limitada a modelos Llama (sin experimentos con Qwen, Mistral u otras arquitecturas), y la ausencia de benchmarks con profesores más potentes como GPT-4 o Claude 3. Además, los resultados son del equipo que desarrolló el método, sin reproducción independiente masiva hasta la fecha.

Conclusión

Proxy-KD resuelve un problema concreto y real: cómo transferir el conocimiento fino de un LLM propietario a un modelo chico que puedas correr en tu infraestructura, sin acceso a los logits del original. La arquitectura de dos fases con DPO es elegante, y los benchmarks acompañan. Dicho esto, no es la bala de plata: el costo de alineación del proxy es alto, la validación cruzada con otras arquitecturas brilla por su ausencia, y los experimentos con profesores del calibre de GPT-4 todavía no existen.

Si estás en un equipo que labura con fine-tuning y deployment de modelos en producción, vale la pena clonar el repo, correr algunos experimentos con tus propios datos y ver si los números se sostienen fuera del paper. Si lo hacés, documentá bien los costos de cómputo: es el dato que más falta hace y el que define si esto es viable en la práctica o queda como un lindo paper de conferencia.

Fuentes

AAAI 2025 — Proxy-KD: Knowledge Distillation of Black-Box Large Language Models with Proxy Model: paper oficial presentado en la conferencia AAAI con todos los experimentos, tablas comparativas y descripción del método.
arXiv:2401.07013 — Direct Preference Optimization (DPO): paper que introduce el algoritmo de preference optimization usado en la fase 2 de alineación del proxy en Proxy-KD.
arXiv:2511.10643 — Knowledge Distillation of Large Language Models: A Survey: survey reciente sobre métodos de destilación de LLMs que contextualiza Proxy-KD dentro del ecosistema más amplio de técnicas disponibles.