Real-time LLM inference standard: 3.000 tokens/s

KOG AI demostró el 28 de mayo de 2026 que la inferencia real-time de LLM en GPUs estándar de datacenter puede alcanzar 3.000 tokens por segundo por request, igualando la velocidad del hardware dedicado de inferencia. El límite no era el hierro, sino el software.

En 30 segundos

KOG AI publicó resultados que muestran 3.000 tokens/s por request en GPUs de datacenter estándar, sin hardware propietario de inferencia.
El enfoque es co-diseño de arquitectura, runtime y kernels GPU como un único pipeline optimizado para latencia.
El cuello de botella no era el hardware: los stacks de inferencia existentes no estaban optimizados para decodificación single-request de alta velocidad.
El caso de uso central son los agentes autónomos, donde la velocidad de decodificación por request (no el throughput agregado) es lo que importa.
Tienen un preview público con un modelo de 2B parámetros para coding que se puede probar hoy.

Qué es real-time LLM inference y por qué 3k tokens/s cambia la ecuación

La inferencia real-time de LLM en GPUs estándar es la capacidad de ejecutar modelos de lenguaje grandes directamente sobre hardware de datacenter convencional (no chips de inferencia dedicados como los de Cerebras o Groq) con latencias tan bajas que el output llega al usuario prácticamente en tiempo real. La velocidad relevante aquí no es cuántos tokens generás en total con 100 requests en paralelo, sino cuántos tokens genera ese único request que tiene un agente esperando su próxima instrucción.

Esa distinción es el corazón de lo que publicó KOG AI el 28 de mayo de 2026. Y tiene sentido cuando lo pensás desde el punto de vista de los agentes autónomos.

Por qué los agentes cambian la métrica que importa

Ponele que tenés un agente de código que revisa un repositorio, identifica un bug, genera un fix y lo abre como PR. Cada paso de ese flujo espera la respuesta del modelo antes de ejecutar el siguiente. Si cada llamada tarda 4 segundos, el agente completo tarda minutos. Si tarda 400ms, de repente el loop de razonamiento del agente se parece más a un programador que piensa en tiempo real.

Los benchmarks tradicionales de inferencia mezclan tres cosas: throughput agregado (tokens totales por segundo con muchos requests), latencia de primer token (time to first token), y velocidad de decodificación por request individual. Para aplicaciones de batch o completions simples, el throughput agregado es lo que pagan. Para agentes, es la tercera métrica. Y ahí es donde casi todos los stacks de inferencia modernos vienen flojos. Esto se conecta con lo que analizamos en asegurar el despliegue en producción.

KOG AI argumenta que la limitación no estaba en el hardware. Las GPUs de datacenter tienen un techo de velocidad de decodificación mucho más alto de lo que los stacks actuales logran exponer, por problemas de cómo se gestiona la memoria de banda ancha (memory bandwidth). El stack de software no estaba exprimiendo lo que el hierro ya podía hacer.

El co-diseño como método: arquitectura, runtime y kernels como un solo pipeline

Lo interesante del enfoque de KOG es que no optimizaron una capa sola. Según el post técnico, el resultado viene de tratar la arquitectura del modelo, el runtime de inferencia y el código de bajo nivel de GPU (kernels) como un único pipeline optimizado para latencia. Si optimizás solo el runtime sin cambiar la arquitectura, dejás plata sobre la mesa. Si optimizás los kernels pero el runtime sigue generando overhead en la gestión de memoria, tampoco llegás.

¿Y qué pasó cuando lo aplicaron en producción? Lo lograron incluso en modelos MoE grandes (Mixture of Experts), que son notoriamente difíciles de optimizar para decodificación rápida porque solo una fracción de los parámetros se activa por token, pero eso genera patrones de acceso a memoria irregulares que castigan la latencia.

El resultado es 3.000 tokens por segundo por request en GPUs estándar de datacenter. Para dar contexto: una GPU H100 con vLLM en modo throughput-optimizado puede hacer 3.000-5.000 tokens/s en total repartidos entre decenas de requests concurrentes, pero por request individual suele andar en el rango de 50-150 tokens/s. La diferencia es de un orden de magnitud.

El argumento del hardware estándar y la soberanía de IA

KOG AI hace explícito el argumento comercial: las empresas y los laboratorios de IA ya tienen GPUs de datacenter. No tienen que comprarse chips propietarios de inferencia ni depender de silicon que los ata a un proveedor específico. Sobre eso hablamos en plataformas como ChatGPT.

Esto tiene implicancias concretas para lo que se llama “sovereign AI” (si un país o empresa quiere su propia infraestructura de IA sin depender de APIs externas). Si podés correr inferencia rápida en el hardware estándar que ya está en el rack, no tenés que firmar contratos con fabricantes de chips especializados ni migrar tu stack cuando ese proveedor cambia precios o disponibilidad.

El tech preview público usa un modelo propio de 2B parámetros orientado a coding. KOG aclara sin rodeos que no es un modelo frontier (estuvieron enfocados en velocidad, no en escala), pero que funciona bien en tareas de ingeniería de software específicas cuando está fine-tuneado. La invitación es a probar la velocidad, no el benchmark de inteligencia.

Errores comunes al evaluar este tipo de anuncios

Confundir throughput agregado con velocidad por request

Cuando alguien dice “3.000 tokens/s”, la primera pregunta es: ¿eso es en total con 50 requests en paralelo, o es por request individual? Son métricas completamente distintas. KOG está hablando de decodificación single-request. Si lo comparás con el throughput total de otro sistema que sirve muchos usuarios simultáneos, la comparación no tiene sentido.

Asumir que aplica a cualquier GPU

El post habla de “GPUs estándar de datacenter”. Eso no es tu RTX 4090. Las GPUs de datacenter (H100, H200, A100) tienen arquitecturas de memoria y buses distintos a las GPUs consumer. La optimización de memory bandwidth que describe KOG explota características específicas de ese hardware. ¿Alguien lo verificó de forma independiente en GPUs accesibles para startups pequeñas? Todavía no hay datos publicados de terceros. Más contexto en cómo funcionan los modelos de lenguaje.

Ignorar el tamaño del modelo en el benchmark

3.000 tokens/s en un modelo de 2B parámetros es muy distinto a 3.000 tokens/s en uno de 70B. El preview público es del modelo de 2B. Los resultados en modelos MoE grandes que menciona el post son del sistema completo, pero los detalles de qué modelo específico logró qué velocidad no están completamente desglosados en el material público disponible. Tomalo con pinzas hasta ver benchmarks más completos.

Subestimar el impacto en agentes porque “el LLM igual piensa bien o mal”

Si alguna vez armaste un sistema multi-agente con loops de razonamiento, sabés que la latencia de cada llamada se multiplica por la cantidad de pasos. Un pipeline de 10 llamadas al modelo que demora 2 segundos cada una te da 20 segundos de espera. A 400ms por llamada, son 4 segundos. Eso es la diferencia entre un agente que parece un asistente y uno que parece un sistema por lotes.

Qué significa para equipos que están construyendo agentes ahora

Si estás desarrollando sistemas agenticos hoy, el anuncio de KOG apunta a una dirección que el mercado va a seguir: la optimización del stack completo para latencia single-request, no solo throughput. Eso implica que elegir tu infraestructura de inferencia basándote solo en “cuántos tokens totales por segundo” puede dejarte con un sistema lento para casos de uso agenticos, aunque los números generales parezcan buenos.

Para equipos que alojan sus propios modelos, la pregunta relevante es si el stack que están usando (vLLM, TGI, TensorRT-LLM, SGLang) está configurado para optimizar latencia por request o throughput agregado. Son modos distintos y generalmente no podés maximizar los dos al mismo tiempo. Configurás para un tipo de carga u otra. Para más detalles técnicos, mirá soluciones de Google.

Si tu stack corre en la nube o en servidores propios, el proveedor de infraestructura importa. Para quienes alojan en Argentina, donweb.com tiene opciones de cloud que pueden servir de base para el resto del pipeline, aunque para inferencia de modelos grandes vas a necesitar instancias con GPU especializadas.

Preguntas Frecuentes

¿Qué es la inferencia real-time de LLM en GPUs estándar?

Es la ejecución de modelos de lenguaje grande en GPUs de datacenter convencionales (no chips especializados de inferencia) con velocidades de decodificación lo suficientemente bajas como para que el output llegue al usuario en tiempo real, sin los tiempos de espera típicos de los stacks de inferencia tradicionales. KOG AI demostró en mayo 2026 que con co-diseño de arquitectura, runtime y kernels GPU es posible alcanzar 3.000 tokens por segundo por request individual en este tipo de hardware.

¿Por qué 3.000 tokens por segundo es un número relevante?

A 3.000 tokens/s, un request de 300 tokens de output tarda 100 milisegundos. Eso hace que los loops de razonamiento de los agentes autónomos sean prácticamente instantáneos desde la perspectiva del usuario. El número importa porque los stacks de inferencia optimizados para throughput agregado suelen dar 50-150 tokens/s por request individual, lo que hace que pipelines con muchas llamadas al modelo se vuelvan lentos.

¿Qué hardware necesitás para replicar estos resultados?

El anuncio habla de GPUs estándar de datacenter, lo que en la práctica significa hardware como H100, H200 o A100 de NVIDIA. No son GPUs consumer (RTX, GTX). El argumento de KOG es que este hardware ya existe en los racks de labs de IA y empresas enterprise, por lo que no requiere compra de hardware adicional, solo optimización del stack de software.

¿Cómo se diferencia esto de lo que ofrecen Groq o Cerebras?

Groq y Cerebras usan chips diseñados específicamente para inferencia rápida (LPU y WSE respectivamente), lo que les da ventaja de velocidad pero implica lock-in con hardware propietario. El argumento de KOG es que con la optimización correcta del stack de software, las GPUs de datacenter estándar pueden alcanzar velocidades similares sin ese lock-in. Si el claim se valida de forma independiente a escala, cambiaría el cálculo de compra para infraestructura de inferencia.

¿Está disponible para usar hoy?

KOG AI tiene un tech preview público con su modelo de coding de 2B parámetros. No es un modelo frontier y la empresa aclara que el foco estuvo en velocidad de inferencia, no en capacidad. El stack de inferencia optimizado para modelos más grandes y de producción está en preview, orientado a labs de IA y compradores de sovereign AI. No hay fecha pública de disponibilidad general ni pricing publicado al 29 de mayo de 2026.

Conclusión

Lo que publicó KOG AI es un argumento técnico concreto sobre dónde está el cuello de botella en inferencia de LLMs para agentes: no en el hardware, sino en cómo el software lo usa. Si el claim de 3.000 tokens/s por request en GPUs estándar se verifica de forma independiente a escala de producción, el mercado de infraestructura de inferencia va a tener que responder. Los stacks actuales optimizados para throughput van a necesitar modos de operación distintos para cargas agenticas.

Para quien está construyendo sistemas con agentes hoy, la conclusión práctica es revisar cómo están configurados sus stacks de inferencia y qué métrica están optimizando. Throughput agregado o latencia por request no son la misma cosa, y elegir mal el modo puede hacer que un sistema con buen hardware se sienta lento en producción.

Fuentes

KOG AI Blog – Real-time LLM Inference on Standard GPUs: 3,000 tokens/s per request (28 mayo 2026)