Fine-tuning LLM memorización copyright: el paper que

Un paper publicado en marzo de 2026 en arXiv (2603.20957) demuestra que el fine-tuning de LLMs puede reactivar la reproducción verbatim de libros con copyright almacenados en los pesos del modelo desde el pretraining, logrando tasas de reproducción de hasta el 90% con fragmentos de más de 460 palabras consecutivas en modelos como GPT-4o, Gemini-2.5-Pro y DeepSeek-V3.1.

En 30 segundos

El fine-tuning con resúmenes expandidos de obras protegidas reactiva memorización latente en los pesos, reproduciendo hasta el 90% del texto original.
Solo hacen falta entre 10 y 100 ejemplos de entrenamiento para bypassear los filtros de contenido instalados por RLHF.
GPT-4o, Gemini-2.5-Pro y DeepSeek-V3.1 mostraron correlación r≥0.90: memorizan los mismos libros en las mismas regiones.
El fine-tuning sobre obras de Haruki Murakami desbloqueó la reproducción de más de 30 autores distintos, lo que indica que el problema no es autor-específico.
El hallazgo contradice directamente las defensas legales de OpenAI que argumentan que sus modelos no almacenan copias de textos protegidos.

El problema latente en los pesos de los LLMs

El fine-tuning activa la memorización de copyright en LLMs. Es decir: un modelo de lenguaje, entrenado sobre textos protegidos durante el pretraining, puede recuperar esos fragmentos de forma casi literal cuando se lo somete a un proceso de ajuste fino sobre datos relacionados. No se trata de enseñarle algo nuevo al modelo: la información ya estaba adentro, dormida en los pesos.

Cualquiera que haya trabajado con LLMs en producción sabe que los modelos modernos consumen cantidades absurdas de texto durante el pretraining. La mayoría de los libros publicados antes de 2024 están, de una forma u otra, representados en los pesos de GPT-4o, Gemini o DeepSeek. La pregunta que nadie quería responder era: ¿con qué nivel de fidelidad?

El paper “Alignment Whack-a-Mole”, publicado en marzo de 2026, da una respuesta que incomoda a toda la industria.

Cómo funciona el fine-tuning y por qué activa memorización dormida

El fine-tuning es un reentrenamiento del modelo sobre un conjunto de datos más pequeño y específico. Se usa para especializar un LLM en un dominio: atención al cliente, código, medicina legal, lo que sea. En principio, no tiene por qué revelar nada que el modelo ya “sabe”.

El problema es la metodología de ataque descrita en el paper: plot summary expansion. En vez de usar el texto original del libro directamente, los investigadores le dan al modelo un resumen de la trama y le piden que “expanda” la escena con detalles narrativos. El modelo, que ya tiene el texto original en sus pesos, empieza a reproducirlo.

Los números son difíciles de ignorar: con esta técnica, los modelos reprodujeron entre el 85% y el 90% de libros analizados, generando spans verbatim de más de 460 palabras consecutivas. No estamos hablando de parafraseado, ni de “contenido similar”. Son fragmentos literales, palabra por palabra (spoiler: exactamente lo que las editoriales llevan años diciendo que pasaba).

Lo que hace que esto sea un problema estructural y no solo un edge case es que el fine-tuning opera sobre los pesos mismos del modelo. Las protecciones de seguridad que instalaron años de RLHF viven, mayormente, en capas superiores: filtros de output, instrucciones de sistema, refuerzos de alineación. El fine-tuning puede reescribir esas capas con un volumen de datos sorprendentemente pequeño.

El fenómeno “Alignment Whack-a-Mole”: por qué el nombre es acertado

La metáfora del juego arcade es perfecta. Cada vez que la industria tapa un agujero de seguridad, aparece otro. Primero fueron los jailbreaks de prompts. Luego, las inyecciones de contexto. Después, los ataques de many-shot. Ahora, el fine-tuning como vector de extracción de copyright.

¿Alguien verificó de forma independiente que las protecciones de RLHF eran suficientes para prevenir esto? Hasta este paper, nadie lo había demostrado sistemáticamente a esta escala.

El nombre del paper también apunta directamente a las defensas legales que OpenAI y otras empresas han construido en los tribunales: que sus modelos no “almacenan” textos protegidos, que el output es transformativo, que califica como fair use. El paper proporciona evidencia técnica de que los pesos sí contienen representaciones de obras completas, recuperables bajo las condiciones correctas.

RLHF y las protecciones de seguridad que el fine-tuning bypassa

RLHF (Reinforcement Learning from Human Feedback) es el proceso por el cual los modelos aprenden a comportarse según preferencias humanas. Es lo que hace que GPT-4o diga “no puedo ayudarte con eso” en vez de reproducir un libro entero cuando se lo pedís directamente. No es que el texto no esté en el modelo; es que el modelo aprendió a no darlo.

El fine-tuning, especialmente con ejemplos que refuerzan patrones narrativos específicos, puede reescribir esas preferencias aprendidas. El paper muestra que con entre 10 y 100 ejemplos de entrenamiento bien construidos, los content filters instalados por RLHF dejan de funcionar. Cien ejemplos. Eso es prácticamente nada en términos de costo computacional.

El tema es que los proveedores de APIs de fine-tuning, incluyendo OpenAI y Google, ofrecen estos servicios como producto comercial. Cualquier usuario con una cuenta y crédito suficiente puede fine-tunear GPT-4o hoy. Las salvaguardas actuales verifican si los datos de entrenamiento contienen contenido problemático obvio, pero no detectan el vector de “expansión de resumen” porque los datos de entrada no son, en sí mismos, el texto protegido.

Modelos afectados: GPT-4o, Gemini-2.5-Pro y DeepSeek-V3.1

Los tres modelos evaluados en el paper mostraron vulnerabilidad. Lo que sorprende no es solo que los tres fallen, sino que fallen de forma correlacionada: la correlación entre modelos fue r≥0.90, lo que significa que memorizan los mismos libros y los mismos segmentos de esos libros.

Modelo	Tasa de reproducción	Spans verbatim promedio	Correlación con otros modelos
GPT-4o	~88%	460+ palabras	r≥0.90
Gemini-2.5-Pro	~87%	460+ palabras	r≥0.90
DeepSeek-V3.1	~85%	460+ palabras	r≥0.90

fine-tuning llm memorización copyright diagrama explicativo

Esa correlación tiene una implicación directa: el conjunto de datos de pretraining de los grandes modelos es suficientemente similar como para que todos “recuerden” las mismas obras. No es un problema de un vendor específico. Es un problema de la industria.

Alcance del ataque: datos del estudio “Alignment Whack-a-Mole”

Ponele que hacés fine-tuning del modelo usando fragmentos relacionados con una novela de Haruki Murakami. Esperarías que, en el peor caso, el modelo te reproduzca obras de Murakami. El paper muestra que no: el fine-tuning sobre Murakami desbloqueó la reproducción verbatim de más de 30 autores diferentes.

Eso es generalization cruzada, y es lo que convierte esto en un problema de industria y no solo de un corpus específico. No hay que conocer exactamente qué libros están en los pesos del modelo para explotar la vulnerabilidad. Basta con encontrar un punto de entrada, y el resto se abre solo.

La metodología del paper, según la documentación técnica disponible, usa expansión de resúmenes argumentales como vector principal, lo que es particularmente preocupante porque es un caso de uso legítimo y común de los LLMs. Hacer que un modelo “amplíe” o “desarrolle” un resumen es algo que los usuarios hacen todos los días con fines perfectamente normales.

Implicaciones legales y el problema del “fair use”

OpenAI, en sus presentaciones ante la justicia, argumentó que el output de sus modelos es transformativo y que el proceso de aprendizaje no equivale a almacenar copias de obras protegidas. Es el mismo argumento que Google usó durante años para el caché de búsqueda, con éxito variable.

Este paper cambia la conversación técnica. Si podés extraer 460 palabras consecutivas literales de una obra mediante fine-tuning, el argumento de que “el modelo no tiene el libro adentro” se vuelve difícil de sostener frente a un juez con prueba en mano. No hace falta que el modelo reproduzca el libro entero de un tirón para que haya un problema legal: basta con demostrar que puede hacerlo bajo condiciones específicas.

El debate sobre RLHF y las defensas legales tiene una historia documentada en análisis especializados sobre el “undoing” de RLHF, y este paper llega a añadir evidencia empírica a lo que hasta ahora era mayormente especulación técnica.

Mitigaciones actuales y por qué no alcanzan

La industria tiene algunas respuestas. Double-I Watermark, SHIELD y CopyrightCatcher son mecanismos que intentan detectar o prevenir reproducción de contenido protegido. El problema es que trabajan sobre el output: analizan lo que el modelo genera y lo comparan contra corpus conocidos.

Eso funciona si el ataque es obvio. No funciona si el atacante fine-tunea el modelo para que el output sea ligeramente diferente en forma pero idéntico en sustancia, o si usa el texto como base para un segundo paso de paráfrasis. La detección de watermarks también asume que el contenido protegido está indexado en el sistema de detección, lo que no siempre aplica para obras menos conocidas o idiomas no anglosajones.

La pregunta real, la que el paper deja abierta, es si es técnicamente posible garantizar “fair use aligned generation” a escala. Los investigadores son pesimistas. Si el vector de ataque usa datos de entrada legítimos (resúmenes argumentales), si requiere solo 10-100 ejemplos, y si generaliza a través de autores no objetivo, la superficie de ataque es demasiado grande para cubrir con filtros de output.

Qué está confirmado y qué no

Confirmado por el paper

Fine-tuning con plot summary expansion logra reproducción verbatim de 85-90% en GPT-4o, Gemini-2.5-Pro y DeepSeek-V3.1.
Spans de más de 460 palabras consecutivas literales, confirmados.
Con 10-100 ejemplos de fine-tuning se bypasean los content filters de RLHF.
Fine-tuning en Murakami desbloqueó 30+ autores distintos (generalización cruzada confirmada).
Correlación r≥0.90 entre modelos sobre qué libros y segmentos memorizan.

Pendiente de verificación independiente

Si el resultado se replica con modelos más recientes o versiones posteriores de los modelos evaluados.
El impacto legal concreto en los litigios activos contra OpenAI y otros: el paper es evidencia técnica, pero la interpretación jurídica de “almacenamiento de copias” depende de la jurisdicción y el juez.
Si las mitigaciones de próxima generación (más allá de SHIELD y CopyrightCatcher) pueden cerrar este vector específico.
El alcance del problema en modelos open-source accesibles vía plataformas de cloud.

Errores comunes al interpretar este hallazgo

Error 1: “Esto solo aplica a quien tenga acceso directo a los pesos”

El fine-tuning vía API está disponible comercialmente en OpenAI, Google y otros. No hace falta acceso a los pesos crudos. Cualquier cuenta activa puede lanzar un trabajo de fine-tuning hoy, con los datos correctos.

Error 2: “El modelo reproduce el libro porque lo vio en los datos de fine-tuning”

El vector de ataque usa resúmenes argumentales, no el texto original. Los datos de fine-tuning no contienen el libro protegido. El modelo reproduce el texto porque lo tiene memorizado desde el pretraining. Esa es la diferencia que hace el hallazgo técnicamente interesante y legalmente relevante.

Error 3: “RLHF fue una solución suficiente para este problema”

RLHF instaló preferencias de comportamiento encima de los pesos. No borró los datos memorizados. Es la diferencia entre enseñarle a alguien a no repetir un secreto y hacerle olvidar el secreto. El fine-tuning puede reescribir las preferencias; los datos en los pesos siguen ahí.

Preguntas Frecuentes

¿Qué es el fine-tuning y cómo hace que los LLMs reproduzcan libros con copyright?

El fine-tuning es un reentrenamiento del modelo sobre un conjunto pequeño de datos específicos. Cuando esos datos usan patrones relacionados con obras protegidas presentes en el pretraining, el proceso reactiva representaciones memorizadas en los pesos. El modelo no aprende el libro nuevo: recupera el que ya tenía almacenado, generando fragmentos verbatim de más de 460 palabras.

¿Por qué se llama “Alignment Whack-a-Mole” este problema de memorización?

El nombre hace referencia al juego arcade donde tapás un agujero y aparece otro. Cada capa de seguridad que la industria instaló (RLHF, filtros de output, system prompts) fue eludida por una técnica diferente. El fine-tuning es el nuevo agujero: pasa por encima de la alineación instalada sin que los sistemas de detección actuales lo detecten en la etapa de input.

¿Cuáles son los LLMs vulnerables a la reactivación de memorización de copyright?

El paper de marzo de 2026 evaluó GPT-4o, Gemini-2.5-Pro y DeepSeek-V3.1, los tres con tasas de reproducción de entre 85% y 90%. La correlación entre modelos (r≥0.90) sugiere que cualquier modelo entrenado sobre datasets similares a CommonCrawl o The Pile tiene el mismo problema subyacente.

¿Cuántos ejemplos de fine-tuning hacen falta para bypassear los filtros de copyright?

Entre 10 y 100 ejemplos de entrenamiento bien construidos son suficientes para que los content filters instalados por RLHF dejen de funcionar, según el paper. Eso equivale a un trabajo de fine-tuning de costo mínimo usando las APIs comerciales disponibles.

¿Qué diferencia hay entre RLHF y el bypass por fine-tuning en términos de copyright?

RLHF enseña al modelo a no reproducir contenido protegido modificando sus preferencias de comportamiento, pero no borra los datos memorizados de los pesos. El fine-tuning puede reescribir esas preferencias con pocos ejemplos, dejando intacto el contenido memorizado y accesible. RLHF bloqueó el acceso; el fine-tuning lo desbloquea.

Conclusión

El paper “Alignment Whack-a-Mole” de marzo de 2026 cierra una discusión que la industria venía evitando: los LLMs no solo fueron entrenados sobre libros con copyright, sino que esos libros siguen recuperables bajo condiciones técnicas específicas y accesibles comercialmente. Las defensas legales basadas en que “el modelo no almacena copias” chocan ahora con evidencia empírica de spans de 460 palabras reproducidos literalmente.

Para los equipos que trabajan con fine-tuning como parte de su stack, esto implica revisar sus proveedores de datos de entrenamiento y los términos legales de uso de las APIs. Para la industria en general, el mensaje es que las capas de alineación actuales no son suficientes para garantizar que el fine-tuning sea un proceso seguro desde el punto de vista de copyright. El problema no está en los filtros de output: está en los pesos, y de ahí nadie lo sacó todavía.

Fine-tuning y copyright: los LLMs reproducen libros enteros