Fine-tuning Qwen 3 para categorizar preguntas

En pocas palabras: Sí. Un desarrollador hizo fine-tuning de Qwen 3:0.6B (600 millones de parámetros) para categorizar preguntas y lo llevó del 10% al 92% de precisión con apenas 850 ejemplos. La clave: reemplazar las etiquetas de texto por códigos opacos de dos letras.

El fine-tuning de Qwen 3 para categorizar preguntas dio un resultado contundente: un desarrollador entrenó al modelo de 600 millones de parámetros (Qwen 3:0.6B) y lo llevó del 10% de precisión sin ajuste al 92%. El detalle que disparó el salto final fue dejar de usar etiquetas de texto y reemplazarlas por códigos opacos de dos letras.

El fine-tuning es el reentrenamiento de un modelo de lenguaje ya preentrenado sobre un conjunto de datos propio para especializarlo en una tarea puntual. Acá la tarea es categorizar preguntas: asignar cada consulta a una categoría conocida (pileta, auto, climatización, cocina) antes de buscar la respuesta. Qwen 3:0.6B es un modelo open source de 600 millones de parámetros de Alibaba, chico pero suficiente para clasificar texto corto.

En 30 segundos

Sin entrenar, Qwen 3:0.6B clasificaba preguntas con apenas 10% de acierto. Tras el fine-tuning llegó a 92%.
Bastaron 850 ejemplos de preguntas domésticas, repartidos 70/15/15 entre entrenamiento, evaluación y prueba.
El salto de 79% a 92% vino de cambiar categorías de texto (pool, hvac) por códigos sin significado (AA, BB, CC).
El entrenamiento usó Unsloth y QLoRA, que corren fine-tuning en GPUs de 8 a 16 GB.
La arquitectura combina dos modelos: el 0.6B clasifica, el 4B responde con RAG sobre la categoría filtrada.

¿Por qué un LLM genérico categoriza tan mal sin fine-tuning?

Ponele que le pedís a un modelo de 600M parámetros recién bajado que te diga si “¿Cuándo cambiamos la bomba de la pileta?” pertenece a la categoría “pileta”. Parece trivial. No lo es. El modelo base, sin ajuste, acertaba 1 de cada 10 veces.

El problema es que un LLM general está entrenado para predecir texto plausible, no para devolver una etiqueta cerrada de un conjunto fijo. Cuando le das libertad, inventa categorías, mezcla idiomas o responde con una oración entera en lugar de una clase. Por eso, según el experimento publicado el 16 de junio de 2026, sin entrenamiento específico el modelo era inservible como clasificador.

El fine-tuning cambia eso. Le mostrás cientos de pares pregunta/categoría y el modelo aprende el patrón exacto que necesitás. No aprende conocimiento nuevo, aprende a comportarse. Relacionado: consideraciones de seguridad en despliegue.

¿Cuáles son los resultados reales de entrenar Qwen 3:0.6B?

Acá viene lo bueno: el experimento se hizo en dos fases y cada una movió la aguja de forma distinta. La primera fase entrenó al modelo con las categorías escritas en texto claro (pool, car, hvac, cooking) y ya saltó del 10% al 79%. Un golazo para 850 ejemplos. Pero el autor no se quedó ahí.

La segunda fase reemplazó esas etiquetas por códigos de dos caracteres sin sentido semántico. La precisión trepó al 92% y la tasa de error cayó del 21% al 8%. Mismo modelo, mismos datos, distinta forma de nombrar las clases.

Fase	Cómo se nombran las categorías	Precisión	Tasa de error
Baseline (sin fine-tuning)	Texto (pool, car, hvac)	10%	90%
Fase 1 (con fine-tuning)	Texto (pool, car, hvac)	79%	21%
Fase 2 (con fine-tuning)	Códigos opacos (AA, BB, CC)	92%	8%

¿Cuántos datos necesito para entrenar un modelo de categorización?

Menos de los que pensás. El proyecto usó 850 ejemplos de preguntas domésticas y alcanzó. La división fue clásica: 70% para entrenar, 15% para evaluar durante el ajuste y 15% reservado para la prueba final que nadie toca hasta el final.

¿Por qué tan poco alcanzó? Porque la tarea es acotada. Categorizar entre cuatro o cinco clases conocidas es mucho más fácil que generar respuestas abiertas. Si tu dominio tiene 40 categorías y mucha ambigüedad, vas a necesitar más volumen y, sobre todo, ejemplos balanceados por clase. Para un caso tan estrecho como este, 850 fue un número cómodo. Ya lo cubrimos antes en alternativa sin depender de ChatGPT.

¿Cómo funcionan Unsloth y QLoRA en el fine-tuning de modelos chicos?

El entrenamiento se apoyó en Unsloth, un framework open source que optimiza el fine-tuning de modelos como Qwen 3. Por debajo usa QLoRA, y conviene entender qué hace cada pieza:

LoRA (Low-Rank Adaptation): en vez de reentrenar los miles de millones de pesos del modelo, congela el original y entrena unas matrices chicas que se le suman. Mucho menos cómputo.
QLoRA: suma a LoRA la cuantización a 4 bits, o sea comprime el modelo base a una representación más liviana. Según Modal, esto recorta el uso de memoria de forma drástica.
El resultado práctico: podés hacer fine-tuning de un modelo de este tamaño en una GPU de 8 a 16 GB, sin alquilar un cluster.

Si no tenés una placa así a mano y querés correrlo en la nube, podés levantar un servidor con GPU en donweb.com y entrenar ahí sin comprar hardware. El punto es que la barrera de entrada hoy es baja.

¿Por qué los códigos opacos funcionan mejor que las categorías de texto?

Esta es la parte contraintuitiva. Uno asume que nombrar la categoría “pool” ayuda al modelo, porque la palabra ya carga significado. Y ahí está la trampa.

Categorías como “pool” (pileta) y “water heater” (calefón) comparten rasgos lingüísticos: ambas tienen que ver con agua. El modelo, que es básicamente una máquina de asociar significados, se confundía entre clases parecidas. Al asignarles códigos sin sentido (AA, BB, CC), el modelo deja de razonar por similitud semántica y aprende un mapeo limpio entrada a etiqueta. La confusión entre clases vecinas desaparece.

La lección práctica: cuando entrenás un clasificador, a veces el significado de las etiquetas estorba en lugar de ayudar.

¿Cómo se integra el clasificador con la búsqueda vectorial (RAG)?

El clasificador no vive solo. Es la primera pieza de un flujo más grande pensado para responder preguntas sobre la casa. El recorrido es así: Más contexto en base de los modelos de lenguaje.

Entra la pregunta: “¿Cuándo cambiamos la bomba de la pileta?”.
Qwen 3:0.6B la categoriza: devuelve el código de la clase “pileta”.
RAG filtra por categoría: la base vectorial busca solo en los documentos indexados con esa categoría, no en toda la base.
Qwen 3:4B responde: el modelo grande genera la respuesta usando ese contexto ya filtrado.

¿Qué ganás con el paso previo de categorización? Achicás el espacio de búsqueda, así el ranking vectorial es más relevante, la respuesta llega más rápido y hay menos chances de que el modelo grande alucine con documentos de otro tema. Es un filtro barato que mejora todo lo que viene después.

¿Qwen 3:0.6B o 3:4B? Cuándo usar cada uno

La estrategia del autor es la moraleja del proyecto: no uses un modelo grande para una tarea que uno chico ya domina. El 0.6B clasifica (tarea cerrada, repetitiva, barata) y el 4B responde (tarea abierta, compleja). Cada uno en lo suyo.

Criterio	Qwen 3:0.6B	Qwen 3:4B
Parámetros	600 millones	4 mil millones
Tarea ideal	Categorizar / clasificar	Responder / generar
Costo de cómputo	Muy bajo	Medio
Rol en el flujo	Pre-procesamiento	Generación con RAG

Errores comunes al entrenar un clasificador con LLM chicos

Esperar que el modelo base clasifique sin entrenar: el baseline acá fue 10%. Un LLM genérico no es un clasificador hasta que lo ajustás. Corregilo con fine-tuning sobre tus propias etiquetas.
Usar etiquetas semánticamente parecidas: “pileta” y “calefón” confunden al modelo por cercanía de significado. Probá códigos opacos (AA, BB) y medí si baja la tasa de error.
Evaluar sobre los datos de entrenamiento: si medís precisión con preguntas que el modelo ya vio, el número miente. Reservá un set de prueba (acá fue el 15%) que no toques nunca durante el ajuste.
Tirar el modelo grande a todo: usar un 7B o 14B para clasificar cuatro categorías es quemar GPU al pedo. Empezá por el modelo más chico que cumpla.

Preguntas Frecuentes

¿Cómo se entrena un LLM de 600M parámetros para categorizar preguntas?

Se hace fine-tuning con QLoRA: armás un dataset de pares pregunta/categoría (acá fueron 850 ejemplos), lo dividís 70/15/15 y entrenás con un framework como Unsloth. El modelo aprende a devolver la etiqueta correcta para cada tipo de pregunta. No necesitás reentrenar todos los pesos, solo las matrices LoRA.

¿Cuántos ejemplos de entrenamiento necesito?

Para una tarea acotada de cuatro o cinco categorías, 850 ejemplos alcanzaron para llegar al 92% de precisión. Si tu dominio tiene más clases o más ambigüedad vas a necesitar más datos y ejemplos balanceados por categoría. El volumen depende de cuántas clases y cuánta superposición haya entre ellas. Esto se conecta con lo que analizamos en frente a las soluciones de Google.

¿Cuál es la diferencia entre LoRA y QLoRA?

LoRA congela el modelo original y entrena solo unas matrices chicas que se le suman, bajando el costo de cómputo. QLoRA agrega cuantización a 4 bits del modelo base, lo que reduce todavía más la memoria. Con QLoRA podés hacer fine-tuning en GPUs de 8 a 16 GB.

¿Puedo usar Qwen 3:0.6B con mi base de datos vectorial?

Sí, y es justo para lo que sirve en este flujo. El 0.6B categoriza la pregunta primero y esa categoría filtra la búsqueda en tu base vectorial, así el RAG busca solo en los documentos relevantes. Eso mejora la precisión del ranking y acelera la respuesta.

¿Qué mejora concretamente el fine-tuning en la categorización?

Lleva al modelo de comportarse como generador de texto a comportarse como clasificador cerrado. En este caso la precisión pasó del 10% al 92% y la tasa de error bajó del 21% al 8% al combinar el ajuste con códigos de etiqueta opacos.

Conclusión

Lo interesante de este experimento no es solo el 92%. Es que se logró con un modelo de 600M parámetros, 850 ejemplos y una GPU de escritorio. La era de “necesito un modelo gigante para todo” viene quedando atrás para tareas específicas.

Si estás armando un sistema RAG, copiá el patrón: clasificá primero con un modelo chico fine-tuneado, filtrá la búsqueda por categoría y dejá que el modelo grande responda sobre un contexto acotado. Y si tus clases se confunden entre sí, probá reemplazar las etiquetas de texto por códigos sin significado. Es un truco gratis que acá movió 13 puntos de precisión. Arrancá con el modelo más chico que cumpla y subí de escala solo cuando los números te lo pidan.

Fine-tuning de Qwen 3:0.6B: del 10% al 92% categorizando