Qwen Sin Censura: El Circuito de Control Secreto

Un estudio de interpretabilidad mecanística publicado en 2026 identificó que Qwen3.5-9B, el modelo de lenguaje de Alibaba, implementa censura política en modelos IA de lenguaje mediante un circuito específico y localizable en su arquitectura: un conjunto de vectores en las capas 11 a 20 que enruta activamente la información sobre temas sensibles para el Partido Comunista Chino, sin borrar el conocimiento subyacente.

En 30 segundos

El modelo base Qwen3.5-9B-Base (sin alinear) responde con precisión sobre Tiananmen, Tank Man y las prácticas de trasplante de órganos de Falun Gong. La versión alineada redirige esas respuestas.
La censura no borra datos: el conocimiento existe en el preentrenamiento y el modelo “aprende a enrutar alrededor de él”.
Los investigadores encontraron un “interruptor” técnico: restar una dirección específica en la capa correcta elimina la censura. Pero hay un rango preciso; pasarse genera negación o propaganda en vez de verdad.
Esto no es exclusivo de modelos chinos: otros modelos muestran sesgos políticos codificados, aunque con mecanismos y motivaciones distintas.
La interpretabilidad mecanística es la técnica que hizo posible este hallazgo, y plantea una pregunta incómoda sobre auditoría de IA a escala global.

¿Qué es la censura política en modelos de IA?

Qwen es la familia de modelos de lenguaje de Alibaba Cloud, desarrollada en China y distribuida globalmente. La diferencia entre “alineación ética” y “censura mandatada por un estado” importa, porque no son lo mismo aunque el resultado superficial parezca similar: el modelo no responde sobre cierto tema.

La alineación de seguridad en modelos como Claude o ChatGPT busca evitar daño (instrucciones para fabricar armas, contenido sexual con menores, ataques a infraestructura crítica). La censura estatal, en cambio, silencia información políticamente inconveniente para un gobierno: quién disparó en Tiananmen, cuántas personas murieron, qué pasó con los practicantes de Falun Gong. Eso no es seguridad, es propaganda.

Y la distinción técnica también existe. Según el estudio mecanístico sobre Qwen, el modelo base sin alinear tiene el conocimiento y lo entrega. El filtro se agrega encima, post-preentrenamiento, como una capa de redireccionamiento.

El descubrimiento: un circuito de censura identificable

Ponele que le preguntás a Qwen3.5-9B qué pasó en la Plaza Tiananmen en 1989. La versión alineada te da una respuesta evasiva o directamente falsa. Ahora le preguntás lo mismo al modelo base, Qwen3.5-9B-Base, el que Alibaba publicó sin el proceso de alineación. Ahí sí: respuestas precisas, con encuadre occidental, sobre Tiananmen, sobre Tank Man, sobre los reportes de cosecha de órganos a practicantes de Falun Gong.

Eso ya dice mucho. Pero lo interesante es que los investigadores no se quedaron en la comparación de outputs. Fueron adentro del modelo.

El hallazgo central del estudio es que la censura en Qwen3.5-9B no está dispersa por toda la red neuronal. Es un circuito pequeño, identificable, que se puede leer y, técnicamente, apagar. No es una característica emergente que surgió del preentrenamiento: es algo que se agregó deliberadamente, y dejó una firma arquitectónica detectable. Tema relacionado: cómo funcionan los modelos de lenguaje.

Capas 11-20 y el mecanismo de enrutamiento

El circuito tiene dos partes. Las capas 11 a 20 del modelo (las que los investigadores llaman “writers”) calculan tres vectores internos en el estado oculto de la red. Esos vectores codifican una decisión: “¿esto es contenido sensible para el PRC?”

Si la respuesta es sí, el modelo no borra la información. La enruta alrededor. El conocimiento factual sigue ahí, en los pesos del preentrenamiento. Lo que cambia es el camino que toma la inferencia para construir la respuesta.

¿Y qué pasa si desactivás esa dirección? Los investigadores encontraron una técnica precisa: restar la dirección correcta en la capa correcta, dentro de un rango específico de “dosis”, hace que el modelo entregue la información que tenía pero no mostraba. Acá viene lo bueno: si te pasás del rango, el modelo no cae en la verdad. Cae en otra plantilla entrenada. Negación o propaganda directa. Que no es lo mismo que honestidad, pero tampoco es el mismo mecanismo que la censura silenciosa.

El off-switch existe pero es quirúrgico. No es un botón universal de “desactivar censura”.

Interpretabilidad mecanística: la técnica que lo reveló

La interpretabilidad mecanística (MI) es el área de investigación que intenta entender qué hace exactamente una red neuronal internamente, no solo qué outputs produce. Anthropic, OpenAI y Google DeepMind la vienen desarrollando desde hace años, con resultados como los “features” de superposición (una sola neurona codificando múltiples conceptos) y la identificación de circuitos específicos para tareas como suma o copia de cadenas.

Aplicada a Qwen, la MI permitió que los investigadores no dijeran “este modelo evita temas políticos” (lo cual es obvio a simple vista), sino “estas capas específicas, con estos vectores específicos, implementan este mecanismo específico”. Esa precisión es la diferencia entre una observación y un hallazgo técnico. Sobre eso hablamos en sesgos documentados en Claude.

El fenómeno que persiste incluso después del “off-switch” es lo que en la comunidad de jailbreaking se llama el “flinch”: una especie de reticencia entrenada que no desaparece completamente aunque se neutralice el circuito principal. Según análisis previos sobre LLMs sin censura, el flinch puede persistir porque múltiples capas del modelo participan en el comportamiento, aunque unas sean más determinantes que otras.

Censura mandatada vs. alineación ética: el detalle importa

Hay una tentación de meter todo en la misma bolsa: “todos los modelos censuran cosas”. No es exactamente así, aunque tampoco es blanco y negro.

Aspecto	Censura estatal (Qwen)	Alineación de seguridad (Claude, GPT)
Quién decide qué bloquear	Estado (PRC)	Empresa (Anthropic, OpenAI)
Objetivo declarado	No documentado públicamente	Evitar daño, violaciones de derechos
Transparencia	No hay documentación pública del mecanismo	Hay políticas de uso y guidelines publicadas
Tipo de contenido bloqueado	Eventos históricos políticamente incómodos	Instrucciones dañinas, contenido ilegal
¿El modelo base lo sabe?	Sí (Qwen-Base responde sin restricción)	El preentrenamiento varía por modelo
¿Se puede auditar externamente?	Sí, con MI (como muestra este estudio)	Sí, con MI (Anthropic lo hace internamente)

censura política IA modelos lenguaje diagrama explicativo

Ojo: que Claude o GPT no bloqueen información sobre Tiananmen no significa que no tengan sesgos. Investigaciones académicas recientes muestran que modelos de lenguaje grandes tienden a sesgos político-culturales propios del corpus de entrenamiento, que suelen ser predominantemente en inglés y de origen occidental. No es lo mismo que censura mandatada, pero tampoco es neutralidad.

Implicaciones para transparencia y confianza

Si la censura vive en circuitos específicos y localizables, eso tiene dos lecturas.

La lectura optimista: se puede auditar. La interpretabilidad mecanística abre la puerta a que terceros verifiquen qué tienen los modelos adentro, no solo qué dicen afuera. Eso es valioso para organizaciones que usan Qwen o cualquier otro modelo en contextos donde la información no debería estar filtrada por razones políticas.

La lectura pesimista: la mayoría de los usuarios de Qwen no saben que esto existe. Lo usan en aplicaciones de negocios, en chatbots de servicio al cliente, en sistemas de análisis de texto. Si alguien pregunta sobre política china en esos contextos, recibe respuestas filtradas sin ningún aviso. No hay un cartel que diga “esta respuesta fue modificada por requerimiento del Partido Comunista Chino”.

Desde el punto de vista regulatorio, el EU AI Act apunta a requerir transparencia sobre los sistemas de filtrado de contenido en modelos de alto riesgo. Pero Qwen se distribuye globalmente, y la aplicación de esa regulación sobre modelos con sede en China es, siendo cautelosos, todavía incierta. Cubrimos ese tema en detalle en cómo funciona ChatGPT internamente.

Para empresas en Argentina o Latinoamérica que evalúan qué modelo usar para tareas de análisis de texto o generación de contenido, este tipo de hallazgo es un dato relevante a la hora de elegir infraestructura. Si tu operación requiere información geopolítica precisa, un modelo con censura estatal integrada es un riesgo de calidad de datos. Para un sitio que hostea contenido sensible o que requiere información técnica no censurada, la elección del modelo (y del hosting, como los que ofrece donweb.com para infraestructura en la región) suma al stack de decisiones.

Cómo otros modelos implementan filtros políticos

El caso Qwen es el más documentado en términos mecanísticos, pero no es único. Estudios sobre otros modelos, incluyendo investigaciones recientes sobre sesgos políticos en LLMs, muestran que el fine-tuning supervisado (SFT) puede mover las posiciones políticas de un modelo de forma medible.

La variación más interesante aparece por idioma: el mismo modelo puede comportarse distinto en inglés y en chino mandarín al responder preguntas sobre el mismo evento. Las capas de alineación se entrenaron con datos que no tienen la misma distribución política en cada idioma, y eso se refleja en los outputs.

¿Alguien verificó esto de forma independiente y sistemática para todos los modelos relevantes? Todavía no. Los estudios de MI son costosos computacionalmente y requieren acceso a los pesos del modelo, lo cual limita quién puede hacerlos.

Errores comunes al interpretar este estudio

Error 1: “Todos los modelos son iguales, todos censuran”. No. Hay diferencia entre un modelo que evita instrucciones dañinas por diseño de seguridad y uno que filtra información histórica verificable por mandato estatal. Equipararlos borra una distinción que importa para evaluar confianza.

Error 2: “Con el off-switch se puede usar Qwen sin censura para todo”. La técnica de sustracción direccional que describe el estudio es un resultado de investigación en laboratorio, no una herramienta lista para producción. Requiere acceso a los pesos internos, calibración por tema y capa, y aun así el flinch puede persistir. No es un parche de una línea.

Error 3: “El modelo base (sin alinear) es mejor porque dice la verdad”. El modelo base no tiene ningún filtro de seguridad. Responde sobre Tiananmen, sí. También responde sobre síntesis de venenos sin restricción. “Sin censura política” no es lo mismo que “seguro para usar en producción”.

Qué está confirmado y qué no

Confirmado: Qwen3.5-9B-Base responde sobre Tiananmen, Tank Man y Falun Gong con encuadre factual occidental. El paper lo documenta con ejemplos directos.
Confirmado: La versión alineada tiene un circuito identificable en capas 11-20 que redirige esas respuestas.
Confirmado: La técnica de sustracción direccional funciona dentro de un rango específico para eliminar el filtro.
No confirmado: Que este mecanismo sea idéntico en versiones más grandes de Qwen o en modelos futuros de Alibaba.
No confirmado: Que otros modelos chinos (Baidu ERNIE, DeepSeek, Zhipu GLM) usen el mismo circuito o uno análogo. Requieren estudios de MI propios.
No confirmado: El alcance exacto de la lista de temas censurados. El estudio examina casos específicos, no un inventario completo.

Preguntas Frecuentes

¿Cómo funciona la censura política dentro de modelos de IA como Qwen?

En Qwen3.5-9B, la censura opera mediante un circuito en las capas 11 a 20 del modelo que detecta contenido sensible para el gobierno chino y redirige la respuesta. El modelo tiene el conocimiento factual en su preentrenamiento, pero aprende a no entregarlo cuando el circuito de filtrado se activa. No es borrado de información, es redireccionamiento activo. Esto se conecta con lo que analizamos en limitaciones de los modelos GPT.

¿Se puede desactivar la censura en modelos de lenguaje?

En teoría sí, pero es técnicamente específico. El estudio describe una técnica de sustracción direccional en la capa correcta dentro de un rango de “dosis” preciso. Si se aplica bien, el modelo entrega la información real. Si se excede el rango, el modelo cae en plantillas de negación o propaganda. No es un proceso de un paso y requiere acceso a los pesos internos del modelo.

¿Qué es un circuito de censura en interpretabilidad mecanística?

Un circuito, en el lenguaje de la interpretabilidad mecanística, es un subconjunto de capas y conexiones dentro de una red neuronal que implementa una función identificable. En este caso, el circuito de censura de Qwen es el conjunto de vectores en capas específicas que codifican la decisión “¿es este tema políticamente sensible para el PRC?” y modifican el comportamiento de generación en consecuencia.

¿El modelo Qwen oculta información o la borra?

La oculta, no la borra. Qwen3.5-9B-Base, el modelo sin alinear, entrega información precisa sobre los mismos temas que la versión alineada evita. Eso demuestra que el conocimiento está en los pesos del preentrenamiento. La alineación agrega un mecanismo de redireccionamiento encima, sin modificar el conocimiento base.

¿Todos los modelos de IA tienen censura política codificada?

No de la misma manera. Qwen tiene censura mandatada por el estado chino, documentada en sus pesos de forma identificable. Otros modelos como Claude o GPT tienen alineación de seguridad diseñada por sus empresas para evitar daño, no para proteger narrativas políticas gubernamentales. Investigaciones recientes muestran que modelos grandes en general tienden a sesgos político-culturales de sus datos de entrenamiento, pero eso es distinto a un circuito de censura deliberado.

Conclusión

Lo que cambió con este estudio no es el hecho de que Qwen censura (eso era conocido empíricamente). Lo que cambió es que ahora hay evidencia técnica de cómo lo hace, y esa diferencia es sustancial.

Saber que la censura vive en un circuito localizable significa que, al menos en principio, es auditable. La interpretabilidad mecanística abre una ventana que antes no existía para verificar qué hace realmente un modelo, y no solo qué dice que hace. Eso tiene implicaciones para la regulación, para la confianza empresarial en modelos de origen chino, y para cualquiera que use Qwen en contextos donde la integridad de la información importa.

Dicho esto, el hallazgo también tiene límites claros: el off-switch no es universal, el flinch persiste en algunos escenarios, y los estudios de MI no escalan fácilmente a toda la familia de modelos Qwen. Hay mucho trabajo técnico por delante antes de que esto se convierta en una herramienta práctica de auditoría.

Por ahora, lo que queda es una pregunta incómoda para cualquier organización que use modelos de lenguaje sin revisión interna: ¿sabés realmente qué tiene adentro el modelo que estás usando?

Censura en Qwen: el circuito que oculta Tiananmen