En los últimos meses ha aparecido en las noticias un acrónimo que parece sacado de una novela de ciencia ficción: CODA. Se habla de él en contextos tan distintos como la conservación de especies, la ingeniería genética e incluso la selección de modelos de aprendizaje automático. Detrás de ese nombre se esconden dos métodos desarrollados por científicos vinculados al Instituto Tecnológico de Massachusetts (MIT) que comparten la misma filosofía: utilizar la inteligencia artificial de forma eficiente para resolver problemas que antes parecían imposibles.
CODA para elegir modelos de IA en la conservación de la fauna
La forma más difundida del método CODA es un acrónimo de «consensus‑driven active model selection» (selección de modelos guiada por el consenso). Fue desarrollado por el doctorando Justin Kay y sus colegas de los laboratorios CSAIL del MIT y de la Universidad de Massachusetts Amherst para resolver un problema muy práctico: ¿cómo escoger, entre millones de modelos ya entrenados, cuál es el más adecuado para una determinada tarea?.
Hoy en día existen más de 1,9 millones de modelos de aprendizaje automático disponibles en repositorios como HuggingFace, pero elegir el mejor requiere normalmente elaborar un conjunto de datos de validación grande y etiquetarlo por completo, una tarea costosa en tiempo y en mano de obra. CODA replantea ese proceso. En lugar de etiquetar miles de ejemplos a ciegas, el algoritmo observa primero las predicciones de un conjunto de modelos candidatos y calcula qué ejemplos sería más informativo etiquetar. Con esa información construye de forma probabilística una matriz de confusión para cada modelo —es decir, una estimación de la probabilidad de que ese modelo acierte o se equivoque en cada clase— y actualiza su creencia sobre qué modelo es el mejor.
Esta estrategia activa hace que los expertos humanos solo tengan que etiquetar los datos más relevantes. Según los investigadores del MIT, CODA puede identificar el modelo más adecuado con apenas 25 ejemplos en muchos casos
Cuando se aplicó a la clasificación de especies en imágenes procedentes de cámaras trampa, los ecólogos tenían que revisar solo algunas fotos representativas. Si un modelo acertaba sistemáticamente en las primeras 50 fotos de tigres, por ejemplo, era probable que acertara en el resto; las discrepancias entre modelos aportaban la información necesaria para descalificar a los menos precisos.
Ventajas para la conservación
La principal aplicación de CODA es acelerar la elección de modelos para proyectos de conservación. La monitorización de fauna salvaje genera miles de horas de vídeo e imágenes: salmones migrando, tigres nocturnos, aves en peligro. Gracias a CODA, los biólogos pueden aprovechar los modelos existentes sin tener que entrenar uno desde cero y sin etiquetar a mano grandes bases de datos. Esto reduce el coste y acorta el tiempo entre la recogida de datos y la obtención de resultados, algo vital cuando se sigue el declive de especies amenazadas.
Además, la filosofía de CODA —centrarse en el consenso y el desacuerdo de varios modelos para guiar el etiquetado— puede extenderse a otros ámbitos donde hay que elegir entre muchas alternativas con pocos datos. El equipo del MIT considera que su trabajo destaca la importancia de dedicar recursos a la evaluación de modelos, no solo al entrenamiento. La investigación fue reconocida como Highlight Paper en la conferencia ICCV 2025 y ha sentado las bases para futuros sistemas de evaluación automática
.
CODA para optimizar la actividad del ADN
Existe otra metodología llamada CODA, por «Computational Optimization of DNA Activity», desarrollada por un consorcio en el que colaboran el MIT, el Broad Institute de MIT y Harvard, la Universidad de Yale y el laboratorio Jackson. En este caso no se trata de elegir modelos de IA, sino de diseñar secuencias de ADN sintéticas capaces de activar o desactivar genes con gran precisión
.
Cómo funciona
Los reguladores naturales de la expresión génica, conocidos como elementos cis reguladores (CRE), controlan cuándo y dónde se activan los genes. Sin embargo, su «gramática» es compleja y su espacio de combinaciones, prácticamente infinito.
Los investigadores entrenaron un modelo de aprendizaje profundo con datos de la actividad de más de 775 000 CRE naturales en células humanas de sangre, hígado y cerebro. Este modelo aprendió patrones que relacionan las secuencias de ADN con la intensidad y la especificidad de la expresión génica.
A partir de ahí desarrollaron CODA, una plataforma generativa que usa la IA para crear nuevas secuencias de CRE con las características deseadas. Como ocurre con herramientas generativas como DALL‑E o ChatGPT, el sistema puede proponer millones de variantes y evaluar cuáles cumplen el criterio de activar un gen en un tipo celular concreto sin activarlo en otros.
Tras múltiples iteraciones de simulación y experimentos de laboratorio, el equipo logró diseñar miles de CRE sintéticos que superaban en especificidad a los naturales y que combinaban regiones activadoras y represoras para aumentar su precisión.
Por qué lo usan los científicos del MIT
El interés del MIT y sus socios en CODA tiene un objetivo claro: desarrollar terapias génicas más seguras y precisas. Controlar la expresión de un gen solo en las células enfermas evitaría los efectos secundarios que han lastrado muchos tratamientos experimentales. Los artículos que describen la plataforma explican que CODA podría permitir activar genes en neuronas específicas de un paciente con Parkinson o en las células del hígado de un paciente con trastornos metabólicos, dejando el resto del organismo intacto.
Los resultados en modelos animales fueron prometedores: una secuencia diseñada con CODA activó un gen indicador únicamente en una capa concreta del cerebro del ratón, a pesar de haber sido introducida en todo el cuerpo
.
El uso de CODA no se limita a la medicina. El equipo también prevé aplicaciones en biomanufactura y en la investigación básica, donde poder modular la expresión génica con precisión abre nuevas vías para estudiar funciones celulares y desarrollar productos biológicos de forma más eficiente
.
¿Por qué dos métodos con el mismo nombre?
Aunque comparten acrónimo, los dos métodos CODA responden a problemas distintos. El primero surgió en la comunidad de visionarios de datos para resolver un reto de evaluación de modelos; el segundo nace de la bioingeniería y aspira a reescribir el código de la vida. En ambos casos, sin embargo, hay un nexo común: usar la inteligencia artificial para aprovechar mejor los recursos —sean datos o combinaciones de ADN— y conseguir resultados que serían imposibles con métodos tradicionales.
