ChatGPT no podía existir en 1998. No es una cuestión de voluntad ni de inversión: la arquitectura Transformer que hace posible ChatGPT no se publicó hasta 2017, las GPUs necesarias para entrenarlo no existían, y la infraestructura de red mundial era una fracción minúscula de lo que hoy damos por sentado. La especulación sobre ChatGPT en 1998 es un experimento mental fascinante que revela cuántas piezas tuvieron que encajar para que esto fuera posible.
¿Y si en lugar de ChatGPT hubiera sido Claude?
El ejercicio mental cambia de color cuando en vez de OpenAI ponés a Anthropic en el centro. Claude no es solo otro LLM: es el producto de una empresa fundada en 2021 por Dario Amodei, Daniela Amodei y otros ex investigadores de OpenAI que se fueron precisamente porque creían que la seguridad de la IA debía ser el eje del desarrollo, no un addendum. Ese origen importa. En 1998, ese enfoque hubiera sido incomprensible para una industria tech que operaba en modo “construí primero, regulá después”.
Hay dos obstáculos que el escenario de Claude en 1998 agrega al análisis general. Primero, el energético: entrenar un modelo de la escala de Claude consume gigawatts. Los datacenters de 1998 operaban a 1-2 kW por rack; los actuales manejan decenas de kW con refrigeración líquida y acuerdos de energía renovable. Intentar replicar ese consumo en la infraestructura eléctrica de los 90 hubiera generado cortes regionales en cascada. No es hipérbole: es aritmética aplicada a la red eléctrica global de la época. Segundo, el de calidad de datos: el corpus de Claude no solo requiere volumen, sino diversidad textual real —conversaciones, código, análisis técnico, libros— con estructura semántica. El HTML básico de 1998, lleno de errores tipográficos y sin esa variedad de géneros, era cualitativamente insuficiente aunque hubieras tenido billones de páginas.
Y después está el problema ético, que es el más específico de Anthropic. Entrenar Claude implica procesar datos personales a escala masiva. El GDPR llegó en 2018; la ley argentina de protección de datos es del 2000 y tardó años en tener implementación efectiva. En 1998, nadie hubiera preguntado de dónde venían los datos de entrenamiento, ni cómo evitar sesgos sistemáticos, ni qué hacer con las alucinaciones que el modelo presentara como hechos. Anthropic fue fundada con Constitutional AI como marco: un método para alinear el comportamiento del modelo con principios explícitos, algo que conceptualmente no existía en los 90. Un Claude de 1998 —técnicamente imposible, pero sigamos el juego— hubiera operado sin ninguna de esas salvaguardas, acumulando daño sin mecanismo de corrección y sin que nadie tuviera las herramientas conceptuales para detectarlo.
La diferencia de fondo entre imaginar ChatGPT en 1998 e imaginar Claude en 1998 no es técnica: es de filosofía empresarial. OpenAI arrancó con una misión de investigación abierta; Anthropic nació de la pregunta “¿cómo hacemos esto de forma responsable?”. Ninguna de las dos preguntas tenía respuesta posible en 1998. Pero la segunda ni siquiera hubiera podido formularse.
En 30 segundos
- La arquitectura Transformer, base de ChatGPT, fue publicada por Google en 2017 en el paper “Attention Is All You Need” — en 1998, directamente no existía.
- En 1998, la IA conversacional más avanzada era ALICE, un chatbot basado en reglas y coincidencia de palabras clave, sin comprensión real del contexto.
- Argentina tenía acceso dial-up de 56k en 1998, con el primer NAP de Latinoamérica recién inaugurado ese año por CABASE en Buenos Aires.
- Entrenar GPT-3 requirió miles de GPUs A100 durante semanas. En 1998, una GPU de consumo tenía 4MB de VRAM y velocidades de MHz simple dígito.
- Sin Transformers, sin GPUs, sin datos masivos ni ancho de banda global, ChatGPT en 1998 hubiera sido técnicamente imposible bajo cualquier escenario realista.
El viaje contrafáctico: ChatGPT en 1998
ChatGPT es un modelo de lenguaje grande (LLM) desarrollado por OpenAI, basado en la arquitectura GPT-4, que genera texto coherente y contextualmente relevante mediante redes neuronales de tipo Transformer entrenadas con cientos de miles de millones de parámetros. Eso es lo que es, en una oración.
Ahora bien, el ejercicio de imaginarlo en 1998 no es solo “hubiera sido copado tener esto antes”. Es un experimento que te muestra, con brutal claridad, cuántas tecnologías tuvieron que inventarse, madurar y escalar para que algo así fuera posible. Ponele que sos investigador en 1998 con la idea de hacer ChatGPT: no tenés los modelos, no tenés el hardware, no tenés los datos, no tenés la red. No tenés nada.
La distancia tecnológica entre 1998 y el lanzamiento de ChatGPT en noviembre de 2022 no se mide en años. Se mide en revoluciones completas de paradigma.
Los requisitos técnicos invisibles de ChatGPT
Para que ChatGPT funcione necesitás, como mínimo, cuatro cosas que en 1998 directamente no existían o eran embrionarias:
- Arquitectura Transformer: el mecanismo de atención que permite al modelo entender contexto largo. Publicado en 2017.
- GPUs de alto rendimiento: para entrenamiento masivo en paralelo. NVIDIA lanzó la GeForce 256 recién en 1999, y era un juguete comparado con lo que necesitás.
- Datasets masivos: Common Crawl, Wikipedia completa, libros digitalizados. En 1998, la web tenía unos 2,4 millones de sitios. A 2026-05-03, hay más de 1.900 millones.
- Infraestructura de cómputo distribuido: datacenters con miles de nodos interconectados. En 1998, Google todavía no había salido a bolsa y Amazon AWS no existía.
Sacás cualquiera de esas piezas y el proyecto muere. En 1998, las cuatro estaban ausentes o eran rudimentarias. No es pesimismo, son los números. Ya lo cubrimos antes en nuestra guía completa de ChatGPT.
La arquitectura Transformer: el ingrediente que llegó en 2017
Vasilios Vaswani y el equipo de Google Brain publicaron “Attention Is All You Need” en junio de 2017. Ese paper es el ADN de ChatGPT. Sin ese paper, sin esa arquitectura específica, no hay GPT de ninguna versión.
¿Por qué importa tanto? Porque antes de los Transformers, las redes neuronales para texto usaban RNNs (Redes Neuronales Recurrentes) y LSTMs (Long Short-Term Memory, propuestas por Hochreiter y Schmidhuber en 1995). Esas arquitecturas procesan texto en secuencia, token por token, lo que las hace lentas y malas para capturar dependencias de largo alcance. Si querés que el modelo recuerde lo que dijo al principio de una conversación larga, las RNNs fallan.
Los Transformers resolvieron eso con el mecanismo de atención: cada token puede “mirar” a todos los otros tokens simultáneamente, ponderando cuáles son relevantes. Eso permite paralelización masiva durante el entrenamiento y captura de contexto que las RNNs ni soñaban.
En 1998 existían LSTMs de primera generación (publicadas tres años antes, en 1995). Son útiles. Pero no son Transformers. Y GPT sin Transformers es, literalmente, un modelo diferente con capacidades radicalmente menores. Entrenás una LSTM con los recursos de 1998 y conseguís un sistema que tal vez autocompleta frases cortas con coherencia básica. No un agente conversacional.
IA en 1998: chatbots de reglas y coincidencia de keywords
Ponele que le pedís al chatbot más avanzado de 1998 que te explique cómo configurar un servidor web. Lo que recibís sería una respuesta genérica generada por coincidencia de palabras, sin comprensión del contexto, sin capacidad de dar seguimiento a tu pregunta anterior.
Ese chatbot era ALICE. Desarrollado por Richard Wallace a partir de 1995, ALICE usaba AIML (Artificial Intelligence Markup Language): un sistema de reglas que detectaba patrones en el input del usuario y respondía con templates predefinidos. Según la historia documentada de los chatbots, ALICE ganó el Premio Loebner tres veces y era la referencia de la época. Pero su “comprensión” era ilusoria: si tu pregunta no coincidía con ningún patrón conocido, la respuesta era incoherente o genérica.
La diferencia con ChatGPT no es de grado. Es de categoría.
ALICE no “entiende” el texto. Detecta coincidencias y devuelve outputs configurados manualmente. ChatGPT genera respuestas token por token, calculando probabilidades sobre el vocabulario completo en cada paso, con contexto de toda la conversación activa. Son mecanismos tan distintos que compararlos es como comparar una calculadora de bolsillo con una supercomputadora.
El estado de Internet en Argentina en 1998: el primer NAP de Latinoamérica
La conexión comercial a Internet en Argentina comenzó en 1995. Según La Nación, ese año Telecom y Telefónica habilitaron los primeros accesos comerciales para usuarios. En 1997, Fibertel lanzó los primeros servicios de cable-módem, pero la penetración era mínima.
En 1998, el hito local fue la inauguración del primer NAP (Network Access Point) o IXP (Internet Exchange Point) de América Latina, operado por CABASE en Buenos Aires. Eso fue relevante para el ruteo eficiente del tráfico regional, pero no cambiaba la realidad del usuario final: la mayoría se conectaba por dial-up a 56k como velocidad máxima teórica (en la práctica, entre 28k y 40k era lo habitual dado el estado de las líneas telefónicas). Cubrimos ese tema en detalle en la evolución de los modelos GPT.
¿Qué significa 56k en términos prácticos? Descargar 1MB llevaba entre 2 y 5 minutos. Una respuesta de ChatGPT promedio genera entre 200 y 800 tokens, que representan entre 1 y 4KB de texto. Técnicamente eso viaja rápido. El problema no es bajar la respuesta: es la infraestructura del servidor que tiene que generarla. Y esa infraestructura en 1998 no existía en ningún país, no solo en Argentina.
Infraestructura global en 1998: velocidad y capacidad insuficientes
Los números son brutales cuando los ponés en perspectiva:
| Recurso | 1998 (aproximado) | 2022 (ChatGPT launch) |
|---|---|---|
| GPU de referencia (VRAM) | NVIDIA Riva TNT: 16MB | NVIDIA A100: 80GB |
| Velocidad de CPU | Intel Pentium II: 333-450 MHz | AMD Epyc: 64 cores, 3.5+ GHz |
| Almacenamiento típico de servidor | HDDs de 4-9GB | SSDs NVMe de múltiples TB |
| Ancho de banda backbone global | ~1 Tbps total estimado | Cientos de Tbps disponibles |
| Sitios web en Internet | ~2,4 millones | ~1.900 millones |
| Parámetros del “mejor” modelo NLP | Millones (pequeños modelos RNN) | GPT-3: 175.000 millones |

Entrenar GPT-3, el predecesor directo del modelo detrás de ChatGPT, requirió aproximadamente 3,14 × 10²³ FLOPS de cómputo (según estimaciones de OpenAI). Con las GPUs de 1998, eso tomaría no años sino milenios. Literalmente.
Eso sí: ni siquiera Google en 1998 (fundado ese año) hubiera podido manejar el volumen de consultas de ChatGPT. En su primer mes de vida, ChatGPT sumó 1 millón de usuarios. En enero de 2023, 100 millones. Para comparar: Amazon en 1998 tenía problemas para escalar su tienda de libros online.
Escenario hipotético: ¿qué hubiera pasado si ChatGPT llegara en 1998?
El ejercicio es útil aunque sea imposible. Imaginemos tres variantes del escenario:
Variante 1: con la tecnología de 1998 pero el concepto de ChatGPT
Tenés el concepto (modelo conversacional de lenguaje general) pero solo las herramientas disponibles en 1998. Resultado: algo parecido a ALICE con mejor base de datos de respuestas. Un chatbot rule-based más sofisticado. No hay generación real, no hay contexto largo, no hay coherencia sostenida. Zafaría para responder preguntas frecuentes de un call center. Para nada más.
Variante 2: ChatGPT real (arquitectura 2022) transportado a 1998
Transportás el modelo GPT-4 completo a 1998. Necesitás correrlo en algún lado. El modelo pesa cientos de gigabytes. No existe hardware que lo soporte. No existe conexión de red que permita servir respuestas a múltiples usuarios. Solo podrías correrlo en un datacenter hipotético con hardware que no existía, para un único usuario por vez, con latencias de minutos por consulta. Tema relacionado: prompts efectivos para GPT Image.
¿Alguien lo usaría? Probablemente solo militares o laboratorios de investigación con acceso exclusivo. No hubiera habido fenómeno de adopción masiva porque la fricción era insalvable.
Variante 3: ChatGPT cambia la historia tecnológica desde 1998
Acá viene lo bueno: si asumís que ChatGPT hubiera sido posible, también tenés que asumir que la inversión en hardware, redes y datos hubiera ocurrido antes. Eso implicaría una aceleración de toda la industria que probablemente hubiera llevado a la IA generativa a niveles actuales con quince años de adelanto. El problema es que ese escenario requiere la existencia de una cadena causal que simplemente no tuvo cómo arrancar con las herramientas disponibles.
La historia tecnológica no se acelera con solo querer. Cada avance depende de avances previos, y los Transformers dependieron de décadas de investigación en atención, gradientes, cómputo distribuido y datasets a escala que no podían existir antes de que Internet madurase.
Qué está confirmado / Qué no
| Afirmación | Estado |
|---|---|
| La arquitectura Transformer fue publicada en 2017 | Confirmado (paper “Attention Is All You Need”, Google Brain, 2017) |
| ALICE era el chatbot de referencia en 1998-2000 | Confirmado (ganó el Premio Loebner tres veces) |
| Argentina inauguró el primer NAP de LATAM en 1998 | Confirmado (CABASE, Buenos Aires) |
| ChatGPT llegó a 1 millón de usuarios en 5 días | Confirmado (OpenAI, noviembre 2022) |
| GPT-3 requirió 3,14 × 10²³ FLOPS para entrenar | Estimación de OpenAI, ampliamente citada pero no auditada externamente |
| ChatGPT hubiera sido posible con otra trayectoria tecnológica | No confirmable — es un escenario contrafáctico hipotético |
Errores comunes al pensar en este escenario
Error 1: “Solo faltaba más inversión”
El problema de ChatGPT en 1998 no era de presupuesto. Era de conocimiento científico inexistente. Ni con todo el dinero del mundo podías publicar un paper en 1997 describiendo los Transformers: ese conocimiento requería de investigaciones intermedias que todavía no se habían hecho. La inversión acelera la ejecución, no inventa los descubrimientos.
Error 2: “Los chatbots de los 90 eran IA real”
ALICE y sus contemporáneos usaban sistemas de reglas, no aprendizaje estadístico a gran escala. Según la historia documentada de los chatbots, hasta la llegada de los modelos basados en redes neuronales profundas a mediados de los 2010, los chatbots eran esencialmente motores de búsqueda de respuestas predefinidas. Llamarlos “IA” es generoso.
Error 3: “Internet en 1998 era lenta pero suficiente”
La latencia del usuario (esperar la respuesta) es solo parte del problema. Lo más grave es la generación de la respuesta del lado del servidor. ChatGPT consume GPU intensivamente en cada consulta. En 1998, el mayor datacenter del mundo no tenía la capacidad de cómputo para procesar ni diez consultas simultáneas del modelo. El cuello de botella no era la red: era el cómputo.
Error 4: “Con IA de 1998 igual hubiera sido impresionante”
Tomalo con pinzas: el “impresionante” es relativo al contexto. Los chatbots de 1998 eran impresionantes para 1998. Pero un modelo rule-based disfrazado de “ChatGPT avant-la-lettre” no hubiera tenido ninguno de los comportamientos que hacen útil a ChatGPT: seguimiento de contexto, razonamiento multi-paso, generación flexible. Hubiera sido un ALICE con mejor marketing. Te puede servir nuestra cobertura de los primeros pasos con ChatGPT.
Preguntas Frecuentes
¿Por qué ChatGPT no pudo existir en 1998?
Porque requiere tres ingredientes que no existían: la arquitectura Transformer (publicada en 2017), GPUs con miles de millones de transistores capaces de cómputo paralelo masivo (disponibles desde los años 2010), y datasets de texto a escala de Internet (que no era suficientemente grande en 1998). Faltando cualquiera de estos tres, el proyecto no arranca.
¿Qué hubiera pasado si ChatGPT se lanzara en 1998?
Si el modelo real (GPT-4 nivel) hubiera sido transportado a 1998 de forma mágica, sería inutilizable para el público masivo: no había infraestructura para correrlo ni red para servirlo a múltiples usuarios. Solo investigadores con acceso a hardware especialísimo podrían haberlo explorado. El fenómeno de adopción masiva que se vio en 2022-2023 no hubiera ocurrido.
¿Qué tecnología le faltaba al mundo en 1998 para hacer posible ChatGPT?
Principalmente cuatro cosas: el paper “Attention Is All You Need” de 2017 (base de los Transformers), GPUs con miles de núcleos CUDA (NVIDIA empezó a desarrollarlas para machine learning desde 2007), un corpus de texto a escala de decenas de miles de millones de palabras (el tamaño de web 1998 era insuficiente), y la infraestructura de cloud computing para servir el modelo a millones de usuarios simultáneos.
¿Cómo era Internet en Argentina en 1998?
En 1998, Argentina tenía acceso comercial a Internet desde 1995, con el primer NAP de América Latina inaugurado por CABASE en Buenos Aires ese año. El acceso predominante era dial-up a velocidades de 28k-56k. Fibertel había lanzado cable-módem en 1997, pero con baja penetración. La experiencia de navegar era lenta, cara por minuto de conexión, y limitada a usuarios con poder adquisitivo suficiente para el equipo y el servicio.
¿Cuál era la IA más avanzada en 1998?
En procesamiento de lenguaje natural, ALICE (Artificial Linguistic Internet Computer Entity) era la referencia. Usaba AIML para responder por coincidencia de patrones. En juegos, Deep Blue de IBM había derrotado a Kasparov en ajedrez en 1997, pero era un sistema especializado de búsqueda, no un modelo de lenguaje general. Los LSTMs existían desde 1995 en papers académicos pero no tenían aplicaciones prácticas conversacionales en 1998.
Conclusión
El experimento mental de ChatGPT en 1998 no es solo nostalgia tecnológica. Es una forma concreta de entender por qué la IA generativa llegó cuando llegó y no antes.
Cada pieza de la cadena tenía que estar lista: los Transformers de 2017, las GPUs de alta densidad de cómputo que NVIDIA fue perfeccionando durante quince años, Internet con el volumen de texto suficiente para entrenar modelos, y la infraestructura de cloud computing para servirlos. Sacás una pieza, se cae todo.
Lo que sí es cierto es que la distancia entre ALICE respondiendo con patrones en 1998 y ChatGPT generando texto contextualmente rico en 2022 muestra lo rápido que se movió el campo en veinticuatro años. La historia de ChatGPT es también la historia de todas las tecnologías que tuvieron que madurar para que fuera posible.
Y si te interesa el lado técnico de todo esto: correr modelos locales, APIs de LLMs, o montar infraestructura para tus propios proyectos, contar con un hosting sólido hace la diferencia. donweb.com tiene opciones de cloud y VPS que escalan sin drama.
