Apple's new CEO: comprimir IA en el chip, no en la nube

John Ternus, el nuevo CEO de Apple (y el tipo que diseñó el Neural Engine que corre en cada iPhone y Mac), tiene una apuesta que va a contramano de todo lo que hace el resto de la industria: en vez de construir modelos de IA cada vez más grandes y quemarlos en la nube, Apple comprime inteligencia directamente en el silicio. El M5 tiene un Neural Engine de 16 núcleos con 4x más rendimiento de IA que el M4 y 30% más ancho de banda de memoria, según el anuncio oficial de Apple de marzo 2026.

En 30 segundos

John Ternus reemplazó a Tim Cook como CEO de Apple en 2026 y trae una filosofía hardware-first: la IA vive en el chip, no en la nube.
El Neural Engine existe desde 2017 (A11 Bionic, 600 mil millones de operaciones por segundo) y en el M5 llegó a 16 núcleos con rendimiento 4x superior al M4.
Apple Intelligence corre localmente en dispositivos con chip A17 Pro o posterior; para tareas complejas usa Private Cloud Compute, servidores propios de Apple con garantías de privacidad verificables.
La apuesta no es tener el modelo más grande, sino el modelo mejor optimizado para correr en el dispositivo con la menor latencia posible.
Microsoft, Google y Meta gastan cientos de miles de millones en data centers de IA. Apple evita esa carrera invirtiendo en diseño de silicio propio.

La estrategia de IA de Apple es radicalmente diferente

El Neural Engine de Apple es una unidad de procesamiento neuronal (NPU) integrada en los chips de la serie A y M, diseñada para ejecutar redes neuronales con eficiencia energética muy superior a la de una CPU o GPU de propósito general. Está en todos los iPhone modernos y en cada Mac con silicio propio.

Ponele que sos el CEO de una de las empresas más grandes del mundo y tenés que decidir cómo posicionarte en IA. Google está construyendo Gemini Ultra, OpenAI tiene GPT-4o y o3, Meta lanzó Llama 4. Todos pelean por quién tiene el modelo más grande corriendo en el data center más caro. ¿Qué hacés?

Si sos Ternus, hacés lo opuesto.

La filosofía que viene articulando desde que ascendió a CEO es que el futuro de la IA de consumo no está en modelos de 70 mil millones de parámetros consumiendo gigavatios en Nevada, sino en modelos de 8 mil millones de parámetros brutalmente optimizados corriendo en el chip de tu bolsillo en menos de 50 milisegundos. Según el análisis de CNBC de abril 2026, Ternus fue VP Senior de Hardware Engineering antes de este rol, lo que explica mucho: este es un hardware guy mirando el problema de IA desde el silicio hacia arriba, no desde el modelo hacia abajo.

¿Qué es el Neural Engine y cómo funciona?

Apple integró su primera NPU en el A11 Bionic en 2017 (el chip del iPhone X), capaz de 600 mil millones de operaciones por segundo. Parecía mucho en su momento. Hoy el M5 tiene un Neural Engine de 16 núcleos que realiza billones de operaciones por segundo, con aceleradores neuronales integrados directamente en cada núcleo del GPU.

Arquitectura concreta: el Neural Engine es un motor de convolución especializado con memoria SRAM dedicada, optimizado para las operaciones matriciales que usan las redes neuronales. No es una GPU reconvertida. No es una CPU con instrucciones adicionales. Es un circuito diseñado para un solo propósito: correr modelos de machine learning de la manera más eficiente posible.

¿Para qué lo usa Apple hoy? Face ID procesa tus datos biométricos ahí. La fotografía computacional (esa magia que hace que las fotos de iPhone se vean bien aunque sea de noche) corre en el Neural Engine. El reconocimiento de voz local, la detección de objetos en fotos, el procesamiento de realidad aumentada: todo pasa por esa parte del chip. Y desde 2025, Apple Intelligence suma herramientas de escritura, búsqueda inteligente en Fotos y el Siri renovado a la lista.

Procesamiento local vs. nube: la apuesta de privacidad

Las ventajas del procesamiento local son concretas y medibles. Latencia: milisegundos en el dispositivo contra cientos de milisegundos (o más) de un round-trip a un servidor. Privacidad: los datos no salen del dispositivo. Eficiencia energética: no gastás batería transmitiendo datos ni esperando respuesta. Disponibilidad sin conexión: funciona en el avión, en el subte, en cualquier lugar.

La nube tiene sus propias ventajas reales. Podés correr modelos enormes, acceder a información actualizada y escalar sin límites de hardware. Apple no ignora esto.

Acá viene la parte interesante: Apple Intelligence usa una arquitectura híbrida. Si la tarea es simple (reescribir un párrafo, cambiar el tono de un mail), procesa localmente. Si es compleja, la manda a Private Cloud Compute. Ojo: PCC no son servidores de terceros. Son servidores de Apple, con chips Apple propios, con cinco garantías de seguridad que Apple publica y que son verificables por investigadores externos, según el blog de seguridad de Apple: stateless (no retiene datos entre requests), verificable por auditoría externa, sin acceso privilegiado ni siquiera para empleados de Apple, anti-targetabilidad (no pueden dirigir ataques a usuarios específicos) y transparencia total de código.

Apple Intelligence requiere mínimo iPhone 16 o iPhone 15 con chip A17 Pro para funcionar. Los modelos más viejos quedan afuera, no porque Apple no quiera, sino porque el Neural Engine de generaciones anteriores no tiene la potencia necesaria para correr los modelos locales de forma aceptable.

Apple Intelligence: los casos de uso concretos

Las herramientas de escritura en Mail, Pages y Notas son el caso de uso más visible. Seleccionás texto, le pedís que lo reescriba, que cambie el tono a formal, que lo acorte. Todo corre localmente. Sin latencia perceptible, sin datos que salen del dispositivo.

La búsqueda inteligente en Fotos es el que más sorprende a la gente cuando lo prueba por primera vez. Escribís “foto en la playa con el perro en verano 2023” y el sistema entiende la descripción y la busca. No hay palabras clave exactas que tipear. Corre localmente.

Image Playground genera imágenes en tres estilos (Animación, Ilustración, Boceto) a partir de texto. El procesamiento es local para estilos básicos. Visual Intelligence permite interactuar con lo que está en pantalla: apuntás la cámara a algo, y Siri puede darte contexto, abrir el mapa de un lugar, identificar una planta.

El nuevo Siri tiene diseño renovado y entendimiento de contexto conversacional. Acá hay que ser honesto: Siri todavía viene flojo en comparación con lo que puede hacer un ChatGPT o Gemini en una conversación abierta. Pero la ventaja de Apple no es la capacidad bruta del modelo (que es real, pero no líder), sino la integración profunda con el sistema operativo y las apps nativas. Siri puede hacer cosas dentro de tus apps que ningún chatbot de terceros puede hacer.

M5, M5 Pro y M5 Max: el hardware diseñado para IA

Chip	Núcleos CPU	Núcleos GPU	Neural Engine	Memoria unificada máx.	Ancho de banda
M5	10	10	16 núcleos	32 GB	153.6 GB/s
M5 Pro	12-18	16-20	16 núcleos	64 GB	273.6 GB/s
M5 Max	12	32-40	16 núcleos	128 GB	546 GB/s

apple apple's new ceo diagrama explicativo

Lo que no aparece en la tabla pero importa mucho: el M5 integra Neural Accelerators en cada núcleo del GPU. No solo hay un motor neuronal centralizado, sino que el GPU completo puede contribuir al procesamiento de IA de manera coordinada. Es una decisión de arquitectura que Apple tomó pensando primero en cargas de trabajo de IA y después en el resto.

El ancho de banda de 153.6 GB/s del M5 base (30% más que el M4) no es un dato menor si corrés modelos de lenguaje localmente. Los LLMs son hambrientos de memoria: la velocidad a la que el chip puede acceder a los pesos del modelo determina cuántos tokens por segundo podés generar. Un modelo de 8B parámetros en FP16 ocupa 16 GB de memoria. Con ese ancho de banda, podés correrlo a velocidades que hacen la interacción fluida, sin esperas.

Por qué Ternus apuesta a “comprimir, no agrandar” con apple apple’s new ceo

Microsoft comprometió 80 mil millones de dólares en infraestructura de IA solo en 2025. Google, Amazon y Meta tienen compromisos similares. Esa carrera tiene un problema concreto: los costos de inferencia en la nube son enormes, la latencia es real, y la privacidad siempre queda en segundo plano.

Ternus viene de diseñar hardware durante décadas (estuvo en el equipo que hizo el Mac Pro, el iPad Air, los primeros MacBook con silicio propio), y su lectura del problema es diferente: el valor a largo plazo está en quien controla el silicio y la experiencia de usuario, no en quien tiene el modelo más grande. Apple ya controla el chip, el sistema operativo y las apps. Si además optimiza modelos específicamente para ese chip, la ventaja competitiva es difícil de replicar.

¿Eso significa que la estrategia de Apple va a ganar? No está claro todavía. Los modelos locales tienen limitaciones reales de capacidad que los modelos en la nube no tienen. Pero para los casos de uso donde la privacidad y la latencia importan más que la capacidad bruta, la apuesta de Ternus tiene mucho sentido.

Errores comunes sobre la estrategia de IA de Apple

Error 1: “Apple no usa la nube para IA.” Sí la usa. Private Cloud Compute existe exactamente para eso. La diferencia es que Apple usa sus propios servidores con chips propios y garantías de privacidad verificables, no terceros.

Error 2: “Los modelos de Apple son débiles porque son chicos.” Están optimizados para hardware específico, no son modelos genéricos. Un modelo de 3B parámetros optimizado para el Neural Engine del A18 Pro puede superar a uno de 7B parámetros de propósito general en las tareas para las que fue entrenado. El tamaño de parámetros es una métrica de comparación bastante burda.

Error 3: “Apple Intelligence compite directamente con ChatGPT.” No compiten en el mismo espacio. ChatGPT es un chatbot de propósito general. Apple Intelligence es un conjunto de capacidades de IA integradas en el sistema operativo. Compiten en experiencia de usuario, no en capacidad de razonamiento abstracto.

Error 4: “Apple Intelligence funciona sin conexión en todo.” Las funciones básicas sí. Las complejas usan PCC. Y la integración con ChatGPT (que Apple anunció como opción) sí manda datos a OpenAI si vos lo permitís explícitamente.

Error 5: “La estrategia de Ternus es conservadora porque evita los modelos grandes.” Evitar la carrera de modelos gigantes no es conservadurismo, es una apuesta diferente. Si los costos de inferencia en la nube siguen subiendo y la privacidad se vuelve una preocupación mayor del usuario, la posición de Apple puede resultar ventajosa en dos o tres años.

Preguntas Frecuentes

¿Cuál es la estrategia de IA de Apple diferente a Google y OpenAI?

Apple prioriza modelos optimizados para correr localmente en sus chips (Neural Engine del A18/M5) en vez de construir modelos gigantes en la nube. La filosofía de Ternus es comprimir inteligencia en el silicio: menos parámetros, mejor optimización para el hardware específico, latencia de milisegundos, y privacidad por diseño. Google y OpenAI invierten en modelos cada vez más grandes corriendo en data centers propios.

¿Cómo funciona el procesamiento de IA en el dispositivo en iPhone y Mac?

El Neural Engine procesa las tareas de IA directamente en el chip del dispositivo, sin enviar datos a internet. Para tareas complejas que superan la capacidad local, Apple usa Private Cloud Compute: servidores propios con chips Apple que procesan la solicitud de forma stateless (sin retener datos) y con verificación externa de seguridad. El resultado llega al dispositivo en milisegundos.

¿Qué es el Neural Engine de Apple?

El Neural Engine es una NPU (unidad de procesamiento neuronal) integrada en los chips A y M de Apple desde 2017. El M5 tiene 16 núcleos en su Neural Engine, con rendimiento 4x superior al M4 y ancho de banda de 153.6 GB/s. Está optimizado para operaciones matriciales de redes neuronales: más eficiente energéticamente que una GPU de propósito general para este tipo de cargas.

¿Qué ventajas tiene la IA local frente a la IA en la nube?

Tres ventajas concretas: latencia (milisegundos vs. cientos de milisegundos de un round-trip), privacidad (los datos no salen del dispositivo) y disponibilidad sin conexión. La desventaja real es la capacidad del modelo: un modelo que corre en un iPhone no puede razonar sobre datasets enormes ni acceder a información en tiempo real. Para la mayoría de los casos de uso cotidianos, la IA local alcanza y sobra.

¿Cómo Apple comprime modelos de IA para ejecutarse localmente?

Apple usa cuantización (reducir la precisión de los pesos del modelo de FP32 a INT4 o INT8 sin pérdida de calidad significativa), destilación de conocimiento (entrenar modelos pequeños para imitar el comportamiento de modelos grandes) y optimización específica para las instrucciones del Neural Engine. El resultado son modelos que en benchmarks genéricos parecen modestos, pero en las tareas específicas para las que fueron diseñados muestran rendimiento comparable a modelos mucho más grandes.

Conclusión

La llegada de John Ternus como CEO de Apple en 2026 marca un cambio de énfasis real: la empresa que más sabe de diseño de silicio del mundo va a usar esa ventaja para diferenciarse en IA. El M5 con Neural Engine de 16 núcleos y 4x más rendimiento de IA que el M4 no es un anuncio de marketing; es la evidencia de que Apple lleva años apostando en esta dirección.

Si estás evaluando infraestructura para correr cargas de trabajo de IA locales, un Mac con M5 Pro o M5 Max es hoy probablemente la opción más interesante por relación precio/rendimiento/privacidad disponible, especialmente si necesitás correr modelos medianos (7B-13B parámetros) sin depender de conexión ni pagar por inferencia en la nube. Para tus proyectos web complementarios, donweb.com tiene planes de hosting y dominios para Argentina.

¿La estrategia de Ternus gana la carrera de IA? Esa pregunta va a tardar dos o tres años en tener respuesta. Pero “comprimir inteligencia en el chip” es una apuesta distinta, coherente, y con ventajas competitivas que nadie más puede replicar fácilmente.

Apple’s new CEO: IA en el chip, no en la nube