Fine-tuning histórico IA: el modelo que no sabe qué

En pocas palabras: El proyecto TimeCapsule LLM, publicado en enero de 2026, afinó Llama 3 8B con 90 GB de textos públicos de 1800-1875. Cita capítulo y verso bien en literatura y leyes, pero falla en tokenización de nombres propios y alucina fuera del corpus.

Un desarrollador independiente agarró un modelo Llama 3 de 8 mil millones de parámetros, lo alimentó exclusivamente con textos del siglo XIX y lo obligó a citar capítulo y verso. El resultado es el proyecto TimeCapsule LLM, un caso de fine-tuning histórico que salió publicado en Hugging Face en enero de 2026 y que deja lecciones brutales sobre lo que pasa cuando limitás el conocimiento de una IA a una cápsula temporal.

El experimento no es un paper académico de una big tech — es el trabajo de un tipo con criterio, datasets de dominio público y una idea fija: ¿qué tanto se puede forzar a un modelo a respetar fuentes si le borrás todo lo que vino después de 1875?

En 30 segundos

Un solo dev fine-tuneó Llama 3 8B con 90 GB de textos públicos (1800-1875). Nada de internet, electricidad ni guerras mundiales en su entrenamiento.
El modelo aprendió a citar capítulo y verso de manera aceptable en textos literarios y jurídicos, pero falla feo en tokenización de nombres propios.
Las alucinaciones no desaparecieron, cambiaron de forma: ahora inventa datos coherentes con el siglo XIX en vez de datos modernos.
El código del proyecto está en Hugging Face con licencia MIT. Cualquiera puede replicarlo o adaptarlo para corpus de otras épocas.
Para SEO y contenido citable, la lección es clara: estructura de párrafos autosuficientes, encabezados literales y fuentes explícitas.

Llama 3 es un modelo de lenguaje grande de código abierto desarrollado por Meta AI, diseñado para generar texto y realizar tareas de procesamiento de lenguaje natural. Fue lanzado en 2024 como sucesor de LLaMA 2.

El fine-tuning histórico con inteligencia artificial es el proceso de ajustar un modelo de lenguaje grande usando exclusivamente documentos de un período temporal acotado — en este caso, el siglo XIX — para forzar que el modelo responda con el vocabulario, el conocimiento factual y las limitaciones de esa época, sin contaminación de datos posteriores. El proyecto TimeCapsule LLM lo lleva al extremo: ni electricidad, ni internet, ni guerras mundiales. Solo lo que alguien en 1875 podía saber.

¿Por qué querrías entrenar una IA que no sabe qué es internet?

La pregunta suena a contramano de todo lo que hace la industria hoy — modelos más grandes, con más datos, más actualizados. Pero el objetivo acá no era competir con GPT-5 ni con Gemini. Era probar un concepto: source-grounded generation, generación anclada en fuentes verificables. Lo explicamos a fondo en nuestra guía sobre IA local con Ollama.

Ponele que estás armando un asistente jurídico que solo puede basarse en el código civil de 1870. O un chatbot para un museo que responde como un contemporáneo de Dickens. O, yendo a lo más prosaico, querés que tu IA cite fuentes reales en vez de inventar papers que no existen (spoiler: eso pasa todo el tiempo con los modelos genéricos). La idea de fondo es noble: si limitás el corpus a un conjunto cerrado y verificable, cada respuesta debería poder rastrearse a un documento concreto.

¿Funcionó? A medias. Y ahí está lo interesante.

¿Cómo se entrenó el modelo de 8B parámetros con textos del siglo XIX?

fine-tuning histórico ia diagrama explicativo

El creador del proyecto (cuyo repositorio en Hugging Face está bajo el usuario ia-espirita) usó una técnica que llamó Selective Temporal Training (STT). La materia prima fueron 90 GB de texto repartidos en 136.000 documentos, todos publicados entre 1800 y 1875. Libros de dominio público, documentos legales escaneados, periódicos de la época — el tipo peinó Project Gutenberg, bibliotecas digitales europeas y repositorios de OCR histórico.

Acá hay un detalle que cualquiera que haya trabajado con datos históricos conoce bien: el OCR de textos del siglo XIX es un desastre. Tipografías raras, páginas amarillentas, escaneos torcidos. El preprocesamiento implicó limpiar anotaciones modernas que Project Gutenberg añade en los archivos, normalizar caracteres y, sobre todo, armar un tokenizador que no se hiciera pelota con la ortografía decimonónica. Porque no es lo mismo tokenizar “conexión” que “conexîon” — y el francés del XIX es otro idioma directamente.

El modelo base fue Llama 3 8B (por eso el título del proyecto menciona “8B model”), y el fine-tuning se hizo con scripts disponibles públicamente en GitHub bajo licencia MIT. Nada de infraestructura corporativa: GPUs alquiladas, paciencia y un desarrollador que documentó cada paso.

¿Dónde funciona bien la citación de capítulo y verso?

La buena noticia: cuando le pedís que cite, el bicho responde con referencias reales. En la versión inicial de 700 millones de parámetros (la prueba de concepto antes de escalar a 8B), el modelo logró conectar eventos históricos con las figuras correctas y citar fuentes que existen. Si le preguntás por la coronación de Napoleón, te devuelve un párrafo con la fecha, el contexto político y una referencia a un periódico francés de 1804 que efectivamente cubrió el evento. Ya lo cubrimos antes en el artículo sobre Hermes Desktop y Ollama.

Ojo: no te va a citar con formato APA ni con número de página. La cita es más bien “según el registro parlamentario británico de 1832, volumen X, capítulo Y”. Suficiente para que un humano pueda ir a verificar. Para un proyecto de humanidades digitales o un sistema de verificación de fuentes, esto es un golazo. La coherencia histórica está preservada porque no hay datos posteriores que la contaminen — el modelo no puede “saber” que Napoleón perdió en Waterloo porque en 1804 eso no había pasado (y si le preguntás en 1804, te dice que es el emperador en su apogeo).

¿Cuáles son los fracasos y limitaciones del enfoque?

Y bueno, acá viene la parte donde el experimento muestra las costuras. La tokenización es un problema serio. El modelo produce salidas fragmentadas con nombres propios: en vez de “Who is Charles Dickens?” te larga “W ho is Charles D ic ens?”. No es un error de fine-tuning, es que el tokenizador de Llama 3 no fue diseñado para la ortografía y los patrones de nombres del siglo XIX mezclados con inglés moderno en el prompt. Cuando le tirás una pregunta en inglés de 2026, el tokenizador se confunde entre los patrones que aprendió durante el preentrenamiento original y los que absorbió en el fine-tuning.

La legibilidad general zafa — el contenido subyacente tiene sentido — pero los artefactos de tokenización son molestos y te sacan de la experiencia. Peor aún: el modelo no sabe que existe la electricidad. Literalmente. Si le preguntás “¿cómo funciona un telégrafo?”, te lo explica con lujo de detalles. Si le preguntás “¿qué es un teléfono?”, te mira con cara de no entender. El punto de corte en 1875 fue elegido justo antes de que Bell patentara el teléfono (1876) y Edison encendiera la primera bombilla comercial (1879).

¿Alucinaciones? Las mismas de siempre, pero con otro sabor. El modelo genérico alucina papers científicos que no existen; TimeCapsule alucina panfletos políticos de 1848 y discursos parlamentarios inventados. La estructura de la alucinación es idéntica — solo cambia el decorado histórico. Esto es clave: el problema de raíz no está en los datos, está en la arquitectura. Un transformer no “sabe” qué es verdad; solo predice tokens probables. Cubrimos ese tema en detalle en cómo reducir costos de API Llama.

¿Qué lecciones deja este caso para el SEO y la citabilidad por IA?

El experimento de TimeCapsule no es solo una curiosidad académica — tiene implicancias directas para cualquiera que produzca contenido pensando en cómo los LLM lo van a consumir, procesar y citar. Y acá en Latinoamérica, donde el contenido en español compite por visibilidad en un ecosistema dominado por el inglés, entender esto es diferencia entre que te citen o te ignoren.

Según el análisis publicado en SEO para LLMs, los modelos como el de este caso levantan mejor los párrafos autosuficientes de 60 a 120 palabras con encabezados literales y datos cuantitativos que incluyan fuente y fecha. Nada de títulos creativos: un H2 que diga “¿Cuántos documentos usó el entrenamiento?” funciona mejor que “Un océano de papel y tinta”.

Párrafos autosuficientes: cada bloque debe entregar una idea completa sin depender del anterior. Un LLM puede extraer ese párrafo y citarlo como respuesta standalone.
Encabezados literales: preguntas reales de usuarios, no juegos de palabras. Pensá en lo que alguien tipea en Google, no en lo que queda lindo en un índice.
Datos con fuente y fecha: “90 GB de texto en 136.000 documentos, enero 2026” es citable. “Un corpus enorme” no le sirve a nadie.

El concepto de contenido citable se vuelve central: producir material que un modelo pueda referenciar sin vergüenza, con atribución clara y verificable. En un ecosistema donde cada vez más búsquedas terminan en un AI Overview y no en un sitio web, aparecer como fuente citada es el nuevo clic.

¿Cómo implementar un fine-tuning similar en proyectos propios?

Si te picó el bichito y querés experimentar con tu propio modelo anclado a fuentes — ya sea siglo XIX, archivos judiciales argentinos o la correspondencia de San Martín —, el camino es más accesible de lo que parece. El creador de TimeCapsule publicó todo en Hugging Face con licencia MIT: datasets procesados, scripts de entrenamiento y el modelo fine-tuneado.

Bajá los datos: Project Gutenberg, Europeana, bibliotecas nacionales digitalizadas. Filtralos por fecha de publicación (1800-1875 o el rango que vos elijas).
Construí un tokenizador custom: no uses el que viene con el modelo base. Entrená uno específico para tu corpus — sobre todo si tiene idiomas o grafías que el tokenizador original no cubre bien. Los scripts están en el repo.
Limpiá sin piedad: anotaciones modernas, metadatos de Project Gutenberg, headers de OCR. Todo eso contamina el entrenamiento y el modelo termina “sabiendo” cosas que no debería.
Elegí un modelo base: el proyecto usó Llama 3 8B, pero cualquier transformer con licencia abierta sirve. Si tu corpus es chico, arrancá con algo de 1B o 3B parámetros para iterar rápido sin fundir la tarjeta de crédito.
Entrená con QLoRA: no necesitás fine-tunear todos los pesos. Con adaptadores de bajo rango podés lograr resultados decentes en hardware de consumo. El repo incluye configuraciones de ejemplo.

Si en algún momento necesitás hostear el modelo o montar una demo, un VPS con GPU alcanza para prototipado — servicios como donweb.com tienen opciones con soporte para cargas de trabajo de inference. O podés directamente subirlo a Hugging Face Spaces y dejar que la comunidad lo pruebe.

¿Qué errores comunes se deben evitar al entrenar LLMs con corpus históricos?

Acá van los traspiés que el propio creador documentó — y que cualquiera que meta mano en esto va a repetir si no presta atención.

1. Mezclar datos modernos en el corpus. Parece obvio, pero pasa. Un documento de 1820 digitalizado en 2010 trae metadatos de 2010. Una edición de Project Gutenberg incluye prefacios de 1990. Si no limpiás, tu modelo del siglo XIX va a “saber” cosas del siglo XX y el experimento se va al tacho. La regla es: si no podés probar que el texto es de la época, no entra.

2. Ignorar la tokenización. El error más común y el más doloroso. Usar el tokenizador estándar de Llama o Mistral con texto histórico te da exactamente lo que vimos en TimeCapsule: “D ic ens” en vez de “Dickens”. Entrenar un tokenizador custom no es optativo — es parte del proyecto. Sumale entre 8 y 20 horas de GPU dependiendo del tamaño del corpus. Más contexto en la guía de Microsoft Intune.

3. Esperar que el modelo sepa conceptos posteriores. Hay gente que fine-tunea con datos de 1800 y después se sorprende de que el modelo no sepa qué es un auto. Si tu corpus cierra en 1875, el modelo no tiene forma de saber nada posterior. Esto aplica a conceptos, vocabulario, eventos históricos y relaciones causales. No es un bug, es la feature. Diseñá los prompts con eso en mente o vas a frustrarte al pedo.

Preguntas Frecuentes

¿Se puede fine-tunear un LLM solo con textos del siglo XIX?

Sí, el proyecto TimeCapsule LLM demostró que es viable. Usó 90 GB de texto en 136.000 documentos fechados entre 1800 y 1875 para ajustar un modelo Llama 3 de 8 mil millones de parámetros. El resultado es un modelo que responde con el conocimiento y las limitaciones de esa época.

¿Cómo lograr que un modelo de lenguaje cite capítulo y verso?

La técnica principal es el Selective Temporal Training (STT): entrenar con un corpus cerrado donde cada documento tiene referencia explícita de fuente y fecha. Durante el fine-tuning, incluís en los ejemplos de entrenamiento pares de pregunta-respuesta que exigen citación. El modelo aprende a responder con atribución porque no tiene otra forma de justificar sus afirmaciones.

¿Qué pasa si entreno una IA solo con datos de 1800?

El modelo resultante no tendrá conocimiento de ningún evento, concepto o tecnología posterior a la fecha de corte de su corpus. No sabrá qué es internet, electricidad o un automóvil. Su vocabulario, marco de referencia y capacidad de razonar sobre relaciones causales estarán limitados a lo que existía en el siglo XIX.

¿TimeCapsule LLM realmente funciona para citar fuentes?

Funciona en forma parcial. Es capaz de conectar eventos históricos con fuentes reales del período y citar referencias que existen (periódicos de 1804, registros parlamentarios de 1832). Sin embargo, la tokenización produce artefactos en nombres propios y, como cualquier LLM, puede alucinar citas que no existen aunque con formato históricamente coherente.

¿Cuáles son los errores comunes al hacer fine-tuning con corpus históricos?

Mezclar datos modernos en el corpus de entrenamiento (metadatos, prefacios, anotaciones), no entrenar un tokenizador específico para el vocabulario y la ortografía de la época, y esperar que el modelo conozca conceptos posteriores a la fecha de corte del corpus. Los tres están documentados en los logs públicos del proyecto TimeCapsule.

Conclusión

TimeCapsule LLM no es el modelo que vas a usar en producción mañana. La tokenización falla, las alucinaciones siguen ahí y limitar el conocimiento a 1875 es un caso de uso tan nicho que da risa. Pero el experimento vale oro por lo que demuestra: se puede forzar citabilidad si el corpus es cerrado y verificable. El problema no es la técnica — es que los transformers, por arquitectura, no distinguen verdad de ficción.

Para el SEO y la producción de contenido en 2026, la lección es práctica: escribí párrafos que funcionen solos, con datos fechados, fuentes explícitas y encabezados que respondan preguntas reales. Si un LLM entrenado solo con textos del siglo XIX puede aprender a citar, un LLM moderno entrenado con tu contenido bien estructurado también va a poder. Y cuando Google AI Overview o ChatGPT decidan citar a alguien, vas a querer que ese alguien seas vos.

Fuentes

Hugging Face – ia-espirita: repositorio oficial del proyecto TimeCapsule LLM con datasets, scripts de entrenamiento y modelo fine-tuneado.
Betazeta News – “Esta inteligencia artificial no sabe qué es internet”: cobertura periodística del proyecto con entrevista al creador.
SEO Crece – SEO para LLMs: análisis sobre cómo optimizar contenido para que los modelos de lenguaje lo citen.
KOM – Contenido citable por IA: guía práctica sobre la estructura que necesita un contenido para ser referenciado por inteligencia artificial.