ArXiv prohíbe papers generados con IA completamente: desde mayo de 2026, los autores que envíen trabajos con evidencia de no haber verificado las salidas de un LLM enfrentan un ban de 12 meses, seguido de la obligación de publicar en venues con revisión por pares antes de volver a subir preprints al repositorio.
En 30 segundos
- Thomas Dietterich, chair de la sección de CS de ArXiv, anunció que papers con evidencia “incontrovertible” de falta de verificación de outputs de LLM generan un ban de 1 año.
- La evidencia que activa la sanción incluye referencias alucinadas (citas a papers que no existen) y meta-comentarios del LLM dejados en el texto.
- No es una prohibición de usar IA: es una exigencia de que los autores supervisen lo que publican.
- Un estudio de Columbia auditó 111 millones de referencias y encontró que en las primeras 7 semanas de 2026, 1 de cada 277 citas en preprints era alucinada.
- La tasa de referencias falsas creció de 1 en 2.828 en 2023 a 1 en 277 en 2026, un salto de más de 10x en tres años.
¿Qué es ArXiv y por qué importa?
ArXiv es el repositorio abierto de preprints más usado en ciencias de la computación, matemática y física. Un preprint es un paper publicado antes de pasar por revisión por pares, lo que permite que la investigación circule rápido en la comunidad sin esperar meses el proceso editorial de una revista. ArXiv lleva más de 20 años alojado por Cornell y a partir de 2026 transita hacia convertirse en un nonprofit independiente, justamente para tener más recursos para afrontar problemas como el que nos ocupa.
¿Por qué importa tanto lo que hace ArXiv? Porque en CS y en física, ArXiv es la forma real en que la investigación se difunde. Las revistas con revisión por pares confirman y archivan, pero la comunidad ya leyó el paper en ArXiv meses antes. Si el repositorio se llena de papers generados con IA sin supervisión, el daño a la confianza científica es directo y rápido.
La nueva política: ban de 1 año para autores

Thomas Dietterich, chair de la sección de ciencias de la computación de ArXiv, fue claro: “si una submission contiene evidencia incontrovertible de que los autores no verificaron los resultados de la generación LLM, significa que no podemos confiar en nada del paper.” Según TechCrunch, la sanción tiene dos etapas: primero, ban de 12 meses para subir a ArXiv. Después del ban, toda submission debe haber sido aceptada previamente en una venue con revisión por pares real.
Eso sí: la política no prohíbe usar LLMs. Prohíbe el descuido. Si usás ChatGPT o Claude para redactar secciones y después verificás los datos, las citas y los resultados, en principio no hay problema. El target son los papers donde los autores ni leyeron lo que el modelo generó.
ArXiv ya venía tomando medidas. Desde hace tiempo, los autores que publican por primera vez necesitan el endorsement de un investigador establecido. La nueva política es una escalada directa: ya no es solo una puerta de entrada más difícil, es una sanción con consecuencias reales para quien abusa del sistema. Para más detalles técnicos, mirá qué espera Google del contenido con IA.
Evidencia “incontrovertible” según ArXiv
Dietterich dio ejemplos concretos de qué constituye evidencia incontrovertible. Dos casos son casi imposibles de defender:
- Referencias alucinadas: citas a papers que directamente no existen. Un LLM genera bibliografías plausibles pero inventadas. Si el autor no las verificó, el paper cita fuentes fantasmas.
- Meta-comentarios del LLM dejados en el texto: prompts de vuelta o instrucciones que el modelo devolvió y nadie borró. Cosas como “here is a 200 word summary; would you like me to make any changes?” o “fill it in with real numbers from experiments”. Sí, eso aparece en papers enviados a ArXiv en 2026.
El segundo caso es difícil de mirar. Significa que alguien copió la salida del LLM directo al paper, sin leerlo. No hay escenario donde eso sea un accidente involuntario de buena fe.
La crisis de referencias falsas en 2026
Ponele que en tu próximo paper citás un trabajo que describe exactamente lo que necesitás. Perfecto. El problema: ese paper no existe. Lo generó el LLM con un título creíble, un año plausible y autores reales combinados de forma aleatoria. Vos no lo chequeaste. Y ahora está en ArXiv.
Un estudio de la Universidad de Columbia auditó 111 millones de referencias en 2,5 millones de papers y los números son para preocuparse: en 2023, había 1 referencia alucinada cada 2.828. En 2025, 1 cada 458. En las primeras 7 semanas de 2026, 1 cada 277. El estudio estima 146.932 referencias alucinadas solo en 2025.
La progresión es exponencial. En tres años, la tasa de citas falsas se multiplicó por más de 10. Y esto es en todo el corpus, no solo en papers obviamente descuidados. La contaminación es sistémica.
Cómo creció el “AI slop” en ArXiv
Los síntomas eran visibles antes de que ArXiv los nombrara. Incrementos del 30 al 50% en envíos mensuales sin eventos científicos que los justificaran. Papers con estructura correcta pero contenido superficial, repetitivo, que no aportaba nada nuevo. Autorías sospechosas. Patrones de lenguaje que cualquiera que use LLMs reconoce. Esto se conecta con lo que analizamos en herramientas de IA para desarrolladores profesionales.
¿Y qué pasó cuando el volumen explotó? Que los revisores voluntarios de ArXiv quedaron desbordados y la calidad del filtrado bajó. El repositorio absorbió basura que, en otro momento, hubiera rebotado antes de publicarse.
El caso más extremo que ilustra el problema: Analemma, una startup que automatizó producción de papers con su sistema FARS, en 2025 generó 166 trabajos en 417 horas a un costo estimado de USD 1.100 por paper. Completamente automatizado, con supervisión mínima o nula. Ese es el extremo del espectro, pero el problema existe en un gradiente amplio.
Cómo detecta ArXiv papers generados por IA
La detección no es ciencia exacta y ArXiv lo sabe. Por eso la política apunta a “evidencia incontrovertible”, no a sospechas o probabilidades. Los métodos que se usan incluyen revisión manual de la bibliografía, detección de meta-comentarios de LLM en el texto, y análisis lingüístico de patrones que el modelo no puede esconder del todo.
También emergen herramientas especializadas. CiteAudit, desarrollada para detectar referencias alucinadas, reporta 97% de accuracy en benchmarks y 90% en casos reales. GhostCite, otra herramienta del campo, alcanza 90% de precisión sobre 13 modelos LLM diferentes. Son herramientas prometedoras (el propio benchmark es de los desarrolladores, tomalo con pinzas), pero apuntan en la dirección correcta.
El punto débil es que un autor que decide usar IA con cuidado puede limpiar todos esos rastros. La política de ArXiv no resuelve eso. Resuelve el caso más flagrante: el de alguien que directamente no revisó nada.
Implicaciones para investigadores y el futuro
Si usás LLMs para escribir papers y verificás todo lo que generan, la nueva política no te afecta. Si los usás para generar borradores y después revisás con cuidado, tampoco. El riesgo es para quien usa LLMs como reemplazo del trabajo intelectual, no como asistente.
La tensión de fondo es más interesante. Hay papers completamente automatizados que llegan a venues científicas, incluyendo trabajos bajo el paraguas de “AI Scientist” que en 2026 ya aparecen en Nature. ¿Cuál es el límite entre asistencia y reemplazo? ArXiv no da una respuesta filosófica: da una respuesta operacional. Si hay evidencia de que no lo revisaste, ban. Cubrimos ese tema en detalle en dónde IA realmente complementa al humano.
Para investigadores en Latinoamérica que usan LLMs para superar la barrera del inglés o para acelerar secciones de revisión de literatura, la clave es la misma de siempre: verificar cada referencia antes de citarla. Herramientas como CiteAudit pueden ayudar a hacer ese chequeo más sistemático antes de enviar.
Errores comunes
Confundir “no prohibir IA” con “todo está permitido”
ArXiv explicitó que no prohíbe LLMs. Mucha gente lee eso como luz verde para cualquier uso. No lo es. La política prohíbe publicar sin supervisión. Usar Claude para redactar una sección y después verificar cada dato es diferente a copiar la salida completa sin leerla.
No chequear las referencias antes de enviar
Es el error más fácil de cometer y el que activa la sanción más claramente. Cualquiera que haya usado un LLM para una sección de bibliografía sabe que el modelo inventa títulos plausibles con naturalidad. Un DOI inexistente, un autor que nunca escribió ese paper, un volumen de revista que no corresponde al año. Chequeá cada cita antes de enviar. Siempre.
Dejar prompts o respuestas del modelo en el documento
Parece improbable que alguien envíe un paper con “would you like me to revise this section?” en el cuerpo del texto. Y sin embargo pasa. El flujo de copiar-pegar desde el chat del LLM al documento es rápido y produce exactamente ese tipo de descuido. Hacé una lectura completa del draft antes de enviar.
Preguntas Frecuentes
¿ArXiv prohíbe papers generados con IA en su totalidad?
No. ArXiv no prohíbe el uso de LLMs para escribir o asistir en la redacción de papers. Lo que prohíbe es publicar sin haber verificado los outputs del modelo. Si hay evidencia de que los autores no revisaron lo que el LLM generó, se aplica el ban de 12 meses. En cómo integrar IA en aplicaciones responsablemente profundizamos sobre esto.
¿Cuál es la nueva política de ArXiv sobre papers generados con IA en 2026?
A partir de mayo de 2026, ArXiv aplica un ban de 1 año a autores cuyas submissions contengan evidencia incontrovertible de no haber verificado los resultados de un LLM. Después del año de ban, esos autores deben publicar en venues con revisión por pares antes de poder volver a subir preprints. La política fue anunciada por Thomas Dietterich, chair de la sección de CS.
¿Cuántos papers científicos tienen referencias falsas creadas por LLM?
Un estudio de la Universidad de Columbia sobre 111 millones de referencias en 2,5 millones de papers encontró que en las primeras 7 semanas de 2026 la tasa era de 1 referencia alucinada cada 277. En 2025 fue de 1 cada 458, y en 2023 de 1 cada 2.828. El estudio estima 146.932 referencias alucinadas solo durante 2025.
¿Cómo detecta ArXiv si un paper fue escrito completamente por ChatGPT o Claude?
ArXiv usa revisión manual de bibliografías, detección de meta-comentarios del LLM dejados en el texto, y análisis de patrones lingüísticos. Herramientas como CiteAudit reportan 97% de accuracy en benchmarks para detectar referencias alucinadas. La política se activa con “evidencia incontrovertible”, no con meras sospechas estadísticas.
¿Qué evidencia necesita ArXiv para banear a un investigador por usar IA?
Necesita evidencia “incontrovertible” de que los autores no verificaron los outputs del LLM. Los ejemplos concretos son referencias a papers inexistentes (alucinaciones bibliográficas) y meta-comentarios del propio LLM dejados en el cuerpo del texto, como respuestas a prompts que nunca fueron eliminadas antes de enviar.
Conclusión
ArXiv prohíbe papers generados con IA sin supervisión y con eso pone un límite que, hace dos años, hubiera parecido exagerado. Hoy, con referencias alucinadas creciendo a 10x en tres años y meta-comentarios de LLM apareciendo en papers enviados a revisión, el límite parece tardío. La política de Dietterich es quirúrgica: no ataca el uso de IA, ataca el descuido. Y tiene sentido. Un repositorio donde no podés confiar en las citas pierde su razón de existir.
Para investigadores que usan LLMs responsablemente, el cambio práctico es mínimo: verificar cada referencia, leer lo que el modelo generó, borrar cualquier rastro del prompt. Para quienes lo usaban como reemplazante del trabajo intelectual, el mensaje es claro. La pregunta que queda abierta es si otras plataformas de preprints van a seguir el mismo camino, y con qué velocidad.
Fuentes
- TechCrunch – ArXiv will ban authors for a year if they let AI do all the work
- ArXiv – Estudio Columbia sobre referencias alucinadas en preprints (2605.07723)
- 404 Media – New ArXiv rules on AI-generated papers ban
- The Decoder – ArXiv tightens penalties for AI bungling in scientific papers
- Slashdot – ArXiv to ban researchers for a year if they submit AI slop
