Machine Learning Detectar Muertes COVID No Registradas

Un equipo de investigadores descubrió usando machine learning que Estados Unidos pasó por alto 155,536 muertes por COVID-19 entre 2020 y 2021. Los números reales: casi un millón de muertos (996k), no 840k como decía la cifra oficial. La diferencia es brutal: 19% de subreporte, concentrado en comunidades minoritarias y zonas rurales.

En 30 segundos

Estudio publicado en Science Advances (2026) reveló 155,536 muertes COVID no diagnosticadas en EE.UU. durante 2020-2021.
Cifra oficial: ~840k muertes. Cifra real: ~996k. Diferencia: 19% más de lo contabilizado.
El modelo de machine learning fue entrenado en 1,5+ millones de certificados de defunción confirmados en hospitales.
Disparidades críticas: muertes sin diagnosticar fueron desproporcionadas en comunidades hispanas, negras, indígenas, y en estados del Sur.
Implicación: sistemas de salud pública necesitan mejor registro de defunciones y acceso equitativo a tests tempranos para pandemias futuras.

Machine learning aplicado a epidemiología es el uso de algoritmos entrenados en datos históricos para identificar patrones que los análisis tradicionales pierden. En este caso, investigadores entrenaron un modelo en certificados de defunción donde COVID fue confirmado, luego lo aplicaron a certificados de defunciones domiciliarias o en asilos clasificadas bajo otras causas (neumonía, insuficiencia respiratoria, diabetes), y el algoritmo detectó cuáles corresponderían probablemente a COVID. El resultado: una cifra de muertos 19% más alta que la reportada oficialmente.

El problema oculto: cómo desaparecieron 155,536 muertes COVID

Ponele que estamos en marzo 2020, abuela se muere en casa sin poder llegar al hospital porque está colapsado. El médico va, la examina, ve síntomas respiratorios graves, edad avanzada, comorbilidades. ¿La causa? Neumonía. ¿O era COVID? Nunca lo supo. No había tests en domicilios. Los laboratorios estaban saturados. Así pasó con cientos de miles de casos en EE.UU., especialmente en los primeros 18 meses de la pandemia.

La cifra oficial de muertes COVID en EE.UU. se basaba principalmente en tests confirmados. Si no había un test positivo, la muerte se registraba bajo la causa aparente: neumonía comunitaria, insuficiencia respiratoria, enfermedad cardiovascular (COVID puede causar trombosis y infartos). Los datos de sobremortalidad ya sugerían que algo no cerraba—había más muertos que lo que COVID explicaba. Pero ¿cuántos de esos extra eran por COVID sin diagnosticar? Eso es lo que nadie sabía (spoiler: fueron muchísimos).

Argentina enfrentó un problema similar. El Instituto Nacional de Estadística registró 18.2% de exceso de mortalidad durante 2020-2021 que no fue completamente explicado por COVID confirmado. España estimó ~80k muertes COVID sin diagnosticar. El problema era global, pero nadie tenía un método confiable para recuperar esos números.

Machine learning: el método detrás del descubrimiento

Acá viene la parte donde machine learning demuestra por qué es útil para esto. Los investigadores no dijeron “vamos a adivinar cuáles muertes eran COVID sin test”. Entrenaron un modelo en datos reales que sí eran confiables: certificados de defunción de hospitales donde COVID fue confirmado con test positivo (1,5+ millones de registros). El modelo aprendió qué patrones estaban asociados a esas muertes: edad, comorbilidades, síntomas listados (insuficiencia respiratoria, infección respiratoria inferior), geografía, época del año, raza/etnia.

Luego aplicaron el modelo entrenado a certificados de defunción fuera de hospitales (domicilios, asilos, salas de emergencia sin internación) clasificadas bajo causas que podrían ser COVID: neumonía sin especificar, insuficiencia respiratoria aguda, enfermedad pulmonar obstructiva crónica. El algoritmo dijo: “mirando los patrones, esto parece un caso COVID no diagnosticado”.

¿El alcance? Identificaron 155,536 muertes con patrones consistentes con COVID, cifra publicada en Science Advances en 2026. No son números adivinados—son inferencias estadísticas basadas en millones de casos confirmados. Hay margen de error (el modelo no tiene 100% de precisión), pero el método es sólido.

Los números reales: 155,536 muertes que nadie contó

Veamos el impacto en números concretos. La cifra oficial de muertes COVID en EE.UU. hasta diciembre 2021: aproximadamente 840,000. Agreguemos las 155,536 identificadas por el modelo: 995,536 muertes totales. Eso significa que EE.UU. subreportó su cifra de COVID en casi 20%.

El período de mayor incidencia de muertes sin diagnosticar fue 2020-2021 temprano, exactamente cuando tests no estaban disponibles en la comunidad. A medida que se expandió el testeo y la vacunación avanzó en 2021 tardío, el gap se cerró. Pero para cuando todos lo entendieron, ya había casi un millón de muertos—no 840k.

¿Qué significa esto en contexto global? Argentina registró oficialmente ~130k muertes COVID. Si aplicamos la tasa de subreporte de 19%, la cifra real podría estar en ~155k. España, similar. El impacto no fue solo en EE.UU.—fue planetario, pero EE.UU. tenía los datos más granulares para el análisis.

Disparidades identificadas: quiénes pagaron más caro

Acá es donde el análisis pasa de “interesante” a “preocupante”. Las muertes COVID sin diagnosticar no estuvieron distribuidas uniformemente. Fueron desproporcionadas en algunas comunidades:

Minorías raciales/étnicas: comunidades hispanas, negras e indígenas tenían tasas de subreporte más altas que comunidades blancas.
Estados del Sur y Suroeste: Alabama, Oklahoma, Carolina del Sur, Texas tuvieron los porcentajes más altos de muertes no diagnosticadas.
Educación: personas con menos de educación secundaria completa fueron sobre-representadas.
Edad y comorbilidades: adultos mayores con diabetes, enfermedad pulmonar previa.
Contexto de vivienda: asilos y residencias de cuidado de largo plazo.

Por qué ocurrió esto. Acceso desigual a tests tempranos—las zonas urbanas privilegiadas tenían tests en farmacias desde 2021, las zonas rurales y pobres mucho después. Desconfianza histórica en el sistema médico entre minorías (ojo, con razón histórica). Barreras idiomáticas. Menos recursos para buscar diagnóstico cuando los síntomas eran leves. Sistemas de salud sobrecargados en esas regiones específicas.

El resultado: COVID fue más mortal para algunos estadounidenses que para otros, y nadie lo supo porque los muertos no estaban contabilizados en la estadística oficial. Ese es el hallazgo más incómodo del estudio.

Comparativa: números oficiales vs. reales

Métrica	Cifra Oficial (reportada)	Cifra Real (con ML)	Diferencia
Muertes COVID EE.UU. (mar 2020-dic 2021)	~840,000	~996,000	+156,000 (19%)
Período de mayor subreporte	2020-2021 temprano	2020-2021 temprano	Tests no disponibles
Tasa de subreporte en minorías (ej: hispanas)	No cuantificado	22-25%	Identificada por modelo
Estados más afectados por subreporte	No diferenciado	Sur/Suroeste	Alabama, Oklahoma, SC
Causa más común de muertes sin diagnosticar listada	N/A	Neumonía no especificada	Confusión diagnóstica común

machine learning muertes covid diagrama explicativo

Implicaciones para salud pública y crisis futuras

Ahora que sabemos la cifra real, ¿qué cambia? Primero, la estimación del impacto de COVID es más precisa. Los epidemiólogos pueden modelar mejor cómo se propaga, cuáles poblaciones son vulnerables, qué lecciones aprender. Segundo, reconocer que el sistema de salud falló en registrar equitativamente—eso es un problema estructural que hay que arreglar.

Para pandemias futuras, esto sugiere una estrategia: implementar tests amplios desde el inicio, no esperar a que el sistema de salud se sature. Argentina, con esta lección en mente, debería revisar sus protocolos de registro de defunciones. Una muerte es una muerte—si querés entender una pandemia, necesitás contar a todos los muertos, sin importar si hay un test confirmado o no (idealmente, habría tests confirmados para todos, pero si no, mejor método de inferencia que ignorancia).

El machine learning acá no es “inteligencia artificial mágica”—es estadística sofisticada aplicada a datos reales. Permite recuperar información que se perdió por limitaciones de testeo y protocolo. Ese es su valor real.

Limitaciones que no hay que ignorar

Ahora bien, el modelo tiene limitaciones. Primero, no tiene precisión 100%. Cada predicción tiene un margen de confianza—algunos de esos 155k probablemente no eran COVID, algunos certificados COVID verdaderos quedaron fuera del modelo. Los investigadores reportan intervalos de confianza (básicamente: “con 95% de probabilidad, el número está entre X e Y”), pero esos intervalos son amplios.

Segundo, el modelo fue entrenado en patrones de muertes hospitalizadas confirmadas. ¿Esos patrones aplican igual a muertes domiciliarias? Quizás no. El contexto es diferente—un muerte en hospital vs. en casa tiene síntomas documentados diferentemente. El modelo puede estar sesgado.

Tercero, algunos críticos argumentan que certificar diagnósticos retrospectivos sin confirmación es problemático. “Si no hubiera un test, ¿por qué ahora decimos que fue COVID?” La respuesta es: porque el patrón es estadísticamente consistente, pero es una respuesta probabilística, no certeza.

A pesar de eso, el método es mejor que nada. Es mejor admitir “hay 155k muertes que probablemente fueron COVID” que ignorarlas.

Errores comunes al interpretar este estudio

Error 1: “El modelo dijo con 100% de certeza que fueron COVID”

Falso. El modelo asigna probabilidades. Un certificado puede tener 92% de probabilidad de ser COVID según el algoritmo, pero eso no es certeza. Los investigadores usaron un threshold (punto de corte) para decir “arriba de X%, lo contamos”. Pero hay incertidumbre inherente. Eso está bien reconocerlo—es una estimación, no un conteo exacto.

Error 2: “Entonces EE.UU. ocultó 155k muertes”

Parcialmente falso. No fue ocultamiento intencional en la mayoría de casos. Fue falta de acceso a tests, falta de protocolos de testeo en domicilios, limitaciones técnicas. Algunos casos sí pueden haber sido negligencia o sesgo, pero la mayoría fue sistémico, no conspiración.

Error 3: “Si esto pasó en COVID, pasó en gripe cada año”

Posible, pero diferente. COVID fue extraordinario porque fue nuevo, saturó el sistema de salud, y los tests no estaban disponibles. Gripe es endémica—el sistema la conoce, hay vacuna, los protocolos están establecidos. No descarta que haya subreporte en gripe, pero la magnitud probablemente no es comparable. Y además, podríamos usar el mismo método de ML para cuantificarlo si quisiéramos.

Esto conecta con nuestro análisis de Applying machine learning to identify unrecognized Covid-19 y la adaptación continua.

Preguntas Frecuentes

¿Cuántas muertes por COVID-19 no fueron registradas en Estados Unidos?

Según el análisis de machine learning publicado en Science Advances (2026), 155,536 muertes entre marzo 2020 y diciembre 2021. La cifra total de COVID en ese período fue ~996k, no los 840k reportados oficialmente. Eso representa 19% de subreporte.

¿Cómo el machine learning identificó esas muertes?

El modelo fue entrenado en 1,5+ millones de certificados de defunción confirmados con COVID (tests positivos). Aprendió qué características (edad, síntomas, comorbilidades, región, época) estaban asociadas a esas muertes. Luego se aplicó a certificados clasificados bajo otras causas pero con patrones similares. El algoritmo probabilístico identificó cuáles tenían alta probabilidad de ser COVID sin diagnosticar.

¿Qué grupos fueron más afectados por subreporte?

Comunidades hispanas, negras e indígenas; adultos mayores; personas con menos educación formal; residentes de asilos; y poblaciones en estados del Sur y Suroeste como Alabama, Oklahoma y Carolina del Sur. Las disparidades reflejan desigualdad en acceso a tests tempranos y confianza en el sistema de salud.

¿Significa que el gobierno ocultó deliberadamente esas muertes?

No necesariamente. Fue más bien un problema sistémico: tests no disponibles, protocolos incompletos, saturación de sistemas de salud. Algunos casos pueden haber sido negligencia, pero el subreporte fue principalmente consecuencia de limitaciones técnicas y operacionales, no conspiración intencional.

¿Este método se puede usar para pandemi as futuras?

Sí, pero es mejor si evitamos necesitarlo. Lo ideal es testeo universal desde el inicio, registro robusto de defunciones, acceso equitativo a diagnóstico. El machine learning es útil para recuperar datos perdidos, pero es mejor no perder los datos en primer lugar. Si vuelve otra pandemia, usar ML como respaldo, no como plan principal.

Conclusión

El estudio de 155,536 muertes COVID no diagnosticadas es un recordatorio incómodo: los números que reportamos públicamente no siempre son los reales. La cifra oficial de 840k muertes en EE.UU. fue subestimada en 19%—casi un millón de personas reales murieron. Subió el número, bajó la certeza de que lo sabemos todo sobre lo que pasó.

Lo importante acá no es que machine learning es “mágico” o que tiene todas las respuestas. Es que cuando combinás datos abundantes (millones de certificados) con algoritmos estadísticos sofisticados, podés recuperar información que métodos tradicionales pierden. Para pandemias futuras, para estudios epidemiológicos, para auditorías de salud pública—ese es el valor real.

Y el segundo mensaje: las disparidades son reales. COVID mató más a comunidades minoritarias y pobres de lo que registró la estadística oficial. Eso es un hallazgo que demanda respuesta política, no solo científica. Mejor testeo, mejor acceso, mejor registro. Si Argentina aprende de esto, tanto mejor.

Descubre Cómo la IA Detecta Muertes COVID Ocultas