LLM vintage desde cero: proyectos y costos reales

En mayo de 2026, el ingeniero Croqaz liberó vintage-LLM-340m-v1-base, un modelo de lenguaje de 340 millones de parámetros entrenado desde cero únicamente con textos antiguos, con todo el código y los datasets abiertos en GitHub. En paralelo, el proyecto helloLondon de Bahree juntó 90GB de textos londinenses de 1500 a 1850, y talkie-1930-13b lanzó un asistente conversacional con modales de principios del siglo XX. Queda claro que entrenar un LLM vintage desde cero ya no es un capricho académico: es un experimento que cualquiera con una GPU de 24GB puede intentar.

Resumen

  • Croqaz publicó vintage-LLM-340m-v1-base, un modelo de 340M construido de cero con textos victorianos y scripts propios (código abierto).
  • El dataset de helloLondon supera los 90GB de textos históricos y dispone de variantes de parámetros.
  • talkie-1930-13b fue entrenado exclusivamente con datos pre-1931 para ofrecer un chatbot que no contamina su estilo con datos modernos.
  • Un fine-tuning con QLoRA sobre documentos empresariales de los 80 requiere bajo presupuesto en infraestructura cloud.
  • Correr un modelo de 340M en local es viable con hardware consumer, y los pesos ocupan poca VRAM.

¿Qué es un Vintage LLM y por qué entrenarlo con textos antiguos?

Un LLM vintage es un modelo de lenguaje entrenado exclusivamente con textos históricos —por lo general anteriores a 1930— para replicar el estilo, el vocabulario y la visión de mundo de una época concreta. No mezcla datos modernos y se especializa en entender frases, modismos y hechos que un modelo genérico pierde o alucina. En criollo: es como viajar en el tiempo con un intérprete que no te habla de smartphones en pleno siglo XIX.

El atractivo es triple. Primero, te da una precisión histórica que los LLM mainstream no tienen (preguntale a ChatGPT por un gremio londinense de 1834 y probablemente invente). Segundo, funciona como un laboratorio educativo brutal para entender cómo se entrena un transformer desde las tripas. Tercero, y acá confieso mi debilidad, tener un chatbot que te conteste como un caballero victoriano es sencillamente épico (la misma palabra que usó Croqaz en su blog).

Los proyectos de 2026 que materializan esto no arrancaron de la nada. A fines de febrero de 2026, Bahree compartió en Reddit su experiencia entrenando un modelo solo con textos londinenses de 1800. Croqaz vio esos posts y dijo “quiero mi propio chat victoriano”, y desde entonces laburó todos los días sin excepción en su vintage LLM.

¿Qué datos se necesitan para entrenar un LLM desde cero solo con textos de 1800?

El corazón de cualquier LLM vintage es un corpus limpio y filtrado de documentos históricos. Sin datos de calidad, el modelo aprende a repetir basura o, peor, a inventar anacronismos con aires de erudito.

Bahree construyó helloLondon recolectando 90GB de textos exclusivamente londinenses de 1800, que incluyen diarios, libros, panfletos, actas parlamentarias y registros judiciales. Después de filtrar, el dataset final es de gran tamaño. Tema relacionado: en nuestra guía de seguridad con Intune.

Croqaz no detalla su dataset con exactitud, pero dejó claro que el preprocesamiento incluyó filtrado de calidad, limpieza de OCR y una tokenización personalizada que incorpora términos históricos de la época. Ojo con el OCR: cualquier texto escaneado de época arrastra errores que transforman “Parliament” en “Parl!ament” y te arruinan el entrenamiento sin que te des cuenta.

Del otro lado del espectro, el experimento con QLoRA documentado en ecosistemastartup.com usó el dataset Microsoft de Bitsavers, que abarca documentos empresariales y técnicos de 1979 a 2005 con más de 37 millones de palabras. No es siglo XIX, pero el principio es el mismo: cuanto más específico y filtrado sea el corpus, mejor va a performar el modelo en el dominio que te interesa.

¿Cómo se entrena un modelo vintage paso a paso?

Croqaz describe el pipeline con transparencia quirúrgica. No usó un framework mágico de un solo click: escribió sus propios scripts de base-training y fine-tuning, procesó los datos desde cero y manejó la tokenización a mano. La arquitectura es GPT-style, basada en nanoGPT pero optimizada para correr con Distributed Data Parallel (DDP) en múltiples GPUs.

El flujo típico que vas a encontrar en cualquier proyecto similar es: juntás los textos, los filtrás, generás los embeddings de tokens, configurás el transformer, lanzás el pre-entrenamiento, monitoreás perplexity, guardás checkpoints y, cuando la pérdida deja de bajar, hacés fine-tuning con instrucciones. Parece lineal, pero cualquiera que haya metido un entrenamiento multi-GPU sabe que la realidad es otra: subís el modelo, lo probás en local, funciona bárbaro, lo mandás a producción y de repente todo se rompe porque el tokenizer no era el mismo, las dependencias cambiaron y nadie documentó nada.

El fine-tuning puede ser infinitamente más barato que el entrenamiento desde cero. El experimento de Bitsavers clasificó documentos usando QLoRA sobre un conjunto de ejemplos y le costó apenas unos pocos dólares en GPU cloud. ¿La clave? Modelos base de 7B o 13B congelados, adaptadores LoRA que ocupan migajas de memoria y una tarjeta con 24GB de VRAM. Ajustás los adaptadores, los fusionás con el modelo base y listo.

¿Cuánto cuesta entrenar un LLM vintage y qué hardware necesito?

Acá no hay una sola respuesta, porque depende de si vas por el camino completo o por el atajo del fine-tuning. Complementá con en nuestra guía detallada de ChatGPT.

  • Entrenamiento desde cero (base-training): Croqaz reportó un costo total de aproximadamente USD 80 en GPUs cloud para su modelo de 340M. Otros proyectos como helloLondon permiten entrenar en hardware más modesto, incluso en una RTX 4090 local si tenés paciencia (y pagás la cuenta de luz).
  • Fine-tuning con QLoRA: el fine-tuning con QLoRA es muy económico en cloud, requiriendo solo una instancia con 24GB VRAM. Si querés tunear un modelo como talkie-1930-13b en tu propia PC, necesitás una RTX 3090 o 4090 y unos 16GB de VRAM libres, lo que en 2026 es perfectamente estándar en una máquina gamer.
  • Inferencia local: el modelo 340M de Croqaz corre en hardware consumer con poca VRAM. Podés hostearlo en un VPS con GPU chica o incluso en CPU (a velocidad de tortuga, pero zafa para pruebas). Si querés levantar el talkie-1930-13b, apuntale a 24GB de VRAM con cuantización a 4 bits; sí, es pesado pero tampoco necesitás un datacenter.

Para quienes arrancan desde Argentina y no quieren depender de AWS, un VPS con GPU en cualquier proveedor local o internacional —incluso opciones de donweb.com para la parte de frontend y API— puede ser suficiente para servir el resultado final sin renegar con pasarelas de pago en dólares.

¿Qué herramientas y frameworks se usan para hacer un Vintage LLM?

El stack es 100% open source y no pide licencias extrañas. Los tres pilares son PyTorch, HuggingFace Transformers y PEFT (QLoRA). Croqaz armó su código sobre nanoGPT, mientras que helloLondon y talkie presumiblemente usan forks similares con atención optimizada.

Lo interesante es la unificación de la inferencia. Tanto los checkpoints de PyTorch como los modelos subidos a HuggingFace usan el formato estándar del hub, así que podés cargarlos en una notebook con cuatro líneas de código sin pelearte con serializaciones raras. Los repositorios clave son github.com/croqaz/vintage-LLM (todo el pipeline de entrenamiento y los pesos del 340M) y github.com/bahree/helloLondon (datasets y modelos de Londres 1500-1850).

Si tu plan es hacer solo fine-tuning, alcanza con instalar peft, transformers y bitsandbytes en un entorno Conda y seguir cualquier tutorial de QLoRA que anda dando vueltas. La gran ventaja de 2026 es que la comunidad ya maduró: hay guías en español, datasets documentados y foros donde podés preguntar sin que te manden a leer el paper original.

¿Cómo se evalúa la calidad de un LLM entrenado con textos históricos?

Evaluar estos modelos con las métricas de siempre (perplexity, MMLU, HumanEval) es como juzgar un vino añejo con el reglamento de una cata de cerveza industrial: no te dice nada útil. Necesitás métricas de precisión histórica, consistencia temporal y rendimiento en dominio.

El proyecto helloLondon incorpora exactamente esos tres ejes: chequear que el modelo no invente eventos posteriores a 1850, que mantenga coherencia en sus referencias geográficas y que identifique correctamente instituciones disueltas hace un siglo. En talkie-1930-13b fueron todavía más originales: usaron Claude Sonnet 4.6 como juez para evaluar respuestas en una escala de 1 a 5, logrando un salto de 2.0 a 3.4 en calidad de instrucción. ¿Suena raro usar un LLM moderno para juzgar a uno vintage? Puede ser, pero el equipo reportó que las evaluaciones humanas confirmaron la mejora.

Un detalle clave: durante el post-training no metieron ni un solo chat transcript moderno. Todo el fine-tuning para instrucciones se hizo con manuales de etiqueta, cartas, recetarios y enciclopedias de la época, evitando la contaminación contemporánea que arruinaría el experimento. Esa pureza metodológica es justamente lo que separa un modelo vintage en serio de un GPT tuneado con prompts de época.

¿Puedo usar un Vintage LLM como chatbot o asistente conversacional?

Sí, y de hecho ese es el dream de Croqaz (“my own Victorian chat bot… fuckin’ epic!!”, escribió). Talkie-1930-13b directamente se posiciona como “conversation partner” que respeta las normas de cortesía pre-1931. Ponele que le preguntás sobre la situación política actual, y el modelo te contesta con el desconcierto lógico de alguien que no sabe qué es internet (porque, en su universo, no existe). Para más detalles técnicos, mirá en nuestra guía de modelos de lenguaje.

Ahora bien, no esperes que te resuma un PDF o te traduzca documentación técnica. Son modelos afilados para charla de época, no para productividad moderna. Si necesitás un resumen o una traducción, vas a tener que agregar datos sintéticos en el fine-tuning, y ahí sí corrés el riesgo de contaminar el estilo que tanto te costó preservar. Es un trade-off consciente: a cambio de la magia de hablar con 1834, sacrificás la utilidad multitarea de un LLM contemporáneo.

ProyectoModeloDatasetÉpocaParámetrosCosto / Accesibilidad
Croqaz vintage-LLM340M desde ceroTextos históricos múltiplesPre-1900s aprox.340MOpen source, inferencia en hardware consumer
helloLondon (Bahree)Variantes open source90GB de textos londinenses1500-1850Varios tamañosOpen source, entrenable en RTX 4090 local
talkie-1930-13b13B fine-tunedTextos pre-1931Pre-193113BInferencia requiere 24GB VRAM (4-bit)
Experimento QLoRA Bitsavers7B-13B base37M palabras Microsoft1979-20057B-13BFine-tuning de bajo costo en cloud
llm vintage desde cero diagrama explicativo

Qué significa para empresas y equipos en Latinoamérica

Que un pibe pueda entrenar un modelo de lenguaje que entienda correspondencia comercial de hace 150 años con 8 dólares de presupuesto cambia el tablero. Ya no precisás un equipo de PhDs en Stanford ni acceso a clusters de 256 H100 para experimentar con LLMs propios de dominio.

En sectores como la investigación histórica, el derecho (para interpretar jurisprudencia antigua) o la cultura (archivos históricos), un LLM vintage se convierte en una herramienta de trabajo casi artesanal. Y como los costos de entrenamiento e inferencia bajaron tan abruptamente, cualquier estudio de abogados o universidad argentina puede encarar un proyecto de este tipo sin pedir un subsidio millonario. El único “mega requisito” sigue siendo la curaduría de los datos, y eso lleva tiempo humano, no plata en GPUs.

Errores comunes al entrenar un LLM vintage

  • Usar el dataset crudo sin filtrar OCR: los escaneos automáticos de archivos históricos están llenos de caracteres rotos, faltantes y artefactos. Si no limpiás eso, el modelo va a reproducir “Parl!ament” como si fuera una palabra válida, y tus métricas de perplexity van a ser un desastre (y encima con error incluido).
  • Tokenizador moderno para vocabulario antiguo: palabras como “fogón”, “diligencia” o “almoneda” no están en los tokenizadores de GPT-4 ni de LLaMA. HelloLondon lo solucionó agregando tokens históricos específicos. Si usás el tokenizador predefinido, vas a fragmentar esas palabras en sub-tokens que destruyen la semántica histórica.
  • Evaluar solo con perplexity: medir la perplejidad en un corpus moderno te da un número que no refleja la calidad real del modelo. Un LLM vintage puede tener una perplexity espantosa en un benchmark contemporáneo y sin embargo clavar una respuesta histórica impecable. Siempre sumá métricas de anacronismo y consistencia temporal.
  • Quemar el fine-tuning con datos actuales: si querés que el modelo responda como un inglés de 1830, no le metas transcripciones de Discord ni posts de Twitter. El equipo de talkie-1930 lo evitó a rajatabla, y lograron que el estilo no se diluyera. Ni se te ocurra hacer fine-tuning con instrucciones modernas sin antes aislar bien los adaptadores, porque contaminás el modelo desde la primera epoch.

Preguntas Frecuentes

¿Cómo entrenar un LLM desde cero con solo textos antiguos?

Juntás un corpus de textos históricos digitalizados (como los 90GB de helloLondon), limpiás el OCR, definís un tokenizador que incluya términos de la época, configurás una arquitectura GPT-style en PyTorch con DDP y lanzás el pre-entrenamiento. Proyectos como el de Croqaz liberaron todo el código en GitHub para replicar el proceso.

¿Qué datos necesito para crear un modelo de lenguaje histórico?

Documentos fidedignos anteriores a la fecha de corte que elijas (por ejemplo, 1850). Fuentes típicas son Archive.org, Common Pile y Bitsavers. helloLondon usó diversas fuentes londinenses para juntar cientos de millones de caracteres; el experimento de Bitsavers se centró en 37 millones de palabras de manuales empresariales de los 70 a los 2000. Esto se conecta con lo que analizamos en en nuestra guía de Google.

¿Cuánto cuesta hacer fine-tuning de un LLM vintage hoy?

Con QLoRA podés ajustar un modelo de 7B a 13B con tarjetas de 24GB de VRAM y gastar menos de 10 dólares en cloud (los experimentos recientes confirman costos mínimos). También podés correrlo en local si tenés una GPU RTX 3090 o 4090 y ahorrarte el gasto cloud por completo.

¿Qué tan grande debe ser el dataset para un LLM de época?

Depende del objetivo. helloLondon alcanzó resultados convincentes con 90GB de texto, lo que equivale a un corpus de gran escala. Para un modelo pequeño de 117M parámetros, un corpus bien curado de 5 a 10GB ya puede darte un estilo consistente. Lo crítico no es el tamaño bruto, sino la calidad y la diversidad de fuentes históricas.

¿Puedo correr un LLM vintage en mi computadora local?

El modelo 340M de Croqaz corre con poca VRAM, así que cualquier placa moderna puede con él. Los modelos más grandes, como talkie-1930-13b, necesitan unos 24GB de VRAM con cuantización de 4 bits, algo que una RTX 4090 maneja sin problemas.

Conclusión

Quienes en 2025 veían el entrenamiento de LLMs vintage como un nicho excéntrico, en junio de 2026 se encuentran con una realidad distinta: hacer un LLM vintage desde cero es reproducible, barato y está abierto a cualquiera que se anime con un terminal y un dataset bien curado. Croqaz logró su chat victoriano con obsesión diaria y un modelo de 340M; helloLondon demostró que 90GB de historia londinense caben en una carpeta de disco rígido; talkie-1930 probó que un modelo de 13B puede conversar como si la Segunda Guerra Mundial todavía no existiera.

Lo relevante no es la escala —es enorme en talkie, modesta en Croqaz— sino que la barrera para empezar está en el conocimiento, no en el presupuesto. Si tenés una colección de documentos históricos y sabés limpiar texto, estás a un script de distancia de darle vida a una voz del pasado. Y eso, en términos de preservación y experimentación, es un golazo.

Fuentes

Desplazarse hacia arriba