Escáner PII para prompts IA: protegé tus datos en 2026

Un escáner PII para prompts IA es una herramienta que analiza el texto que vas a enviar a un modelo de lenguaje y detecta información personal identificable antes de que llegue al servidor del proveedor. AI Security Gateway, por ejemplo, corre más de 50 patrones de detección sobre 28+ categorías de entidades en milisegundos y devuelve un reporte de riesgo con severidad por tipo de dato.

En 30 segundos

  • AI Security Gateway lanzó un escáner PII gratuito que detecta emails, SSNs, tarjetas de crédito, claves API y más en prompts antes de enviarlos a cualquier LLM.
  • El incidente de diciembre 2025/enero 2026 expuso 150 GB y 195 millones de registros del gobierno de México exfiltrados via Claude y ChatGPT, según ecosistemastartup.com.
  • ChatGPT Free/Plus usa tus datos para entrenar por defecto; Claude Free/Pro también, a menos que lo desactivés en configuración.
  • Los detectores por regex reducen el riesgo legal en un 80% con latencia menor a 100ms; los basados en IA (GPT-4) logran 72.52% de F1-score en clasificación.
  • Alternativas gratuitas disponibles hoy: Microsoft Presidio, NeMo Guardrails, Portkey Gateway y la extensión Prompt Armour (100% local, sin servidores).

GPT es un modelo de lenguaje grande desarrollado por OpenAI que genera texto y responde preguntas basándose en patrones aprendidos durante su entrenamiento. Incluye versiones como GPT-3.5 y GPT-4, usadas en aplicaciones como ChatGPT.

¿Qué es un escáner PII y por qué es crítico para IA?

PII son las siglas de Personally Identifiable Information: cualquier dato que pueda vincular información con una persona real. Nombre completo, DNI, CUIL, email, número de tarjeta, dirección, clave API, contraseña, token de sesión. Todo eso entra en la categoría.

El problema con los LLMs es que el riesgo no siempre es obvio. No es que alguien se sienta a escribir “mi contraseña es 1234”. Lo que pasa más seguido es que copiás un log de errores que tiene credenciales en texto plano, pegás un CSV con datos de clientes para que el modelo te ayude a limpiarlo, o escribís un prompt de debugging que incluye una variable de entorno con tu API key. El 72.52% de los LLMs detectados en auditorías de enero-abril 2026 mostraban algún tipo de exposición de privacidad, según el análisis de LLMOps PII detection de OneUptime del 30 de enero de 2026.

La ventana de riesgo es esa fracción de segundo entre que apretás Enter y el modelo empieza a procesar. Un escáner PII para prompts IA vive exactamente ahí.

Riesgos reales: qué datos se filtran y adónde van

Ponele que tu equipo le pide a ChatGPT que revise un contrato. El contrato tiene nombre del cliente, domicilio fiscal, CUIT. Ese texto viaja a los servidores de OpenAI, queda en logs, posiblemente se usa para fine-tuning en versiones Free y Plus. No es hipotético.

El caso más grave documentado en lo que va de 2026 fue el hackeo al gobierno de México: según ecosistemastartup.com, entre diciembre 2025 y enero 2026 se exfiltraron 150 GB de datos que representaban 195 millones de registros, usando Claude y ChatGPT como vector de acceso. El método exacto no está confirmado en su totalidad, pero la escala es suficientemente grande para tomarlo en serio.

Imdea Networks detectó rastreadores publicitarios dentro de la interfaz web de ChatGPT, según reportó merca2.es en mayo de 2026. No es solo que OpenAI tenga tus datos: hay terceros que también pueden captarlos vía la interfaz. Sobre eso hablamos en restauración de imágenes con ChatGPT.

Sobre las políticas de cada plataforma: ChatGPT Free y Plus usan conversaciones para mejorar el modelo por defecto (Teams y Enterprise no). Claude Free y Pro también lo hacen salvo que lo desactivés. Gemini y Grok tienen políticas similares. La diferencia entre los planes “de pago para empresas” y los planes de consumo masivo es considerable, y no todo el mundo lo sabe cuando empieza a usar estas herramientas.

Cómo funcionan los detectores de PII: patrones y tecnología

Hay dos enfoques principales y cada uno tiene su trade-off.

El primero es regex + patrones. Definís expresiones regulares para formatos conocidos: el patrón de un DNI argentino, de un número de tarjeta Visa, de una dirección de email, de una clave de AWS. Es rápido (menos de 100ms), predecible y reduce el riesgo legal en un 80% según los datos de LLMOps. El problema es que no entiende contexto: puede marcar “123-45-6789” como SSN en un texto donde es un número de referencia de soporte.

El segundo es IA/ML sobre el texto. Con un modelo tipo GPT-4 entrenado para clasificación de entidades, lográs un F1-score de 72.52% en detección de PII, lo que es considerablemente mejor para casos ambiguos. La contra: latencia más alta y costo computacional mayor.

Herramientas como Microsoft Presidio combinan los dos: regex para patrones estructurados, modelos NER para contexto. NeMo Guardrails de NVIDIA agrega una capa de políticas sobre el resultado. AI Security Gateway los implementa como parte de un firewall en tiempo real.

AI Security Gateway: arquitectura y capacidades reales

La herramienta gratuita que lanzó AI Security Gateway a principios de mayo de 2026 está disponible sin registro. Pegás el texto que ibas a mandar a ChatGPT o Claude, y el motor corre más de 50 patrones de detección sobre 28+ categorías de entidades. El resultado es un reporte con los tipos de datos sensibles encontrados y su nivel de severidad, sin guardar el texto (según indican).

El scanner gratuito es la entrada al ecosistema. La plataforma completa tiene tres componentes que se pueden integrar en producción:

  • AI Firewall y DLP en tiempo real: intercepta cada request antes de que llegue al proveedor. Detecta y redacta emails, SSNs, tarjetas, claves API, prompt injections. Soporta texto e imágenes via OCR.
  • Smart Router: enruta cada llamada al proveedor óptimo en costo y latencia entre ocho opciones: OpenAI, Groq, Mistral, Together, DeepInfra, xAI, Anthropic y Google Gemini. Mismo modelo, menor costo.
  • DLP Policy Engine personalizable: decidís qué entidades escanear, si bloquear o redactar, y podés agregar regex propios para formatos internos de tu empresa (números de legajo, códigos de cliente, IDs de sistemas propios).

¿Y funciona bien? El escáner básico zafa para revisar prompts ad hoc. Para producción, la pregunta real es cuánto falso positivo genera con datos de tu dominio específico, y eso solo se ve probándolo con datos propios. Complementá con prompts avanzados de GPT Image.

Proteger datos en equipos: prácticas que realmente se implementan

El enmascaramiento manual es más simple de lo que parece: antes de pegar cualquier dato en un prompt, reemplazás los valores reales. “Juan López” se convierte en “Cliente_123”. El teléfono va como “[REDACTED]”. La dirección de email como “[EMAIL]”. Lleva un minuto y no necesita ninguna herramienta.

Para equipos más grandes, el principio de menor privilegio aplica directo: si el LLM no necesita el nombre del cliente para armar una query SQL, no se lo das. El modelo trabaja con la estructura, no con los datos reales. Esto reduce drásticamente la superficie de exposición sin complejidad adicional.

Según Kong, una arquitectura PII sanitization bien implementada para LLMs y agentes IA debería correr en menos de 100ms para no agregar latencia perceptible al flujo. Arriba de eso, los equipos empiezan a saltarse el paso, que es exactamente lo que no querés.

La auditoría en tiempo real para accesos no autorizados a campos sensibles es el paso que casi nadie implementa hasta que hay un incidente. No hace falta una plataforma compleja: un log de qué prompts pasaron por el sistema, qué entidades se detectaron y si se redactaron o no, ya es suficiente para investigación post-mortem.

Configuración de privacidad en ChatGPT, Claude y alternativas

Si usás ChatGPT Free o Plus: Settings > Data Controls > desactivá “Mejorar modelo para todos”. Eso evita que tus conversaciones se usen para entrenamiento. En Teams y Enterprise está desactivado por defecto.

En Claude Free o Pro: Settings > Privacy > desactivá “Ayudar a mejorar Claude”. Mismo resultado. Esto se conecta con lo que analizamos en rendimiento real entre GPT y Opus.

Para quienes quieren algo más robusto sin instalar infraestructura, Prompt Armour es una extensión de browser que escanea el prompt localmente antes de enviarlo. Sin servidores externos, sin telemetría. Es la opción más paranoica (en el buen sentido) para uso individual.

La recomendación de base que da Factchequeado en su análisis de marzo 2026 sobre privacidad en ChatGPT, Gemini, Claude, Perplexity y Grok es la más directa: no ingresés en un prompt ninguna información que no publicarías en una red social. Si no lo dirías en Twitter, no se lo digas al modelo.

Herramientas disponibles: gratuitas y comerciales

HerramientaTipoLatenciaEntidadesIntegración
AI Security GatewaySaaS (freemium)<100ms28+API REST, OCR
Microsoft PresidioOpen source<100ms~20 por idiomaPython SDK
NeMo GuardrailsOpen source (NVIDIA)VariableConfigurablePython, LangChain
Portkey GatewayOpen source / SaaS<50msPersonalizableOpenAI-compatible API
Prompt ArmourExtensión browser (gratis)LocalBásicasBrowser (sin API)
AxonFlowComercial enterprise<100ms30+Kubernetes, Docker
escáner pii para prompts ia diagrama explicativo

Para equipos que ya tienen infraestructura en la nube, Microsoft Presidio es el punto de entrada más razonable: MIT license, bien documentado, con soporte para español e integración directa con pipelines de Python. NeMo Guardrails agrega una capa de control de flujo conversacional que va más allá de solo detectar PII, lo cual es útil si armás agentes.

Si estás en un stack de hosting propio y necesitás gestionar las llamadas a APIs de IA, vale la pena mirar cómo lo integrás con tu infraestructura. Para aplicaciones que corren en servidores propios, donweb.com tiene opciones de VPS donde podés desplegar Presidio o Portkey como proxy local sin que el tráfico salga de tu entorno controlado.

Errores comunes al proteger prompts

Error 1: Creer que el modo incógnito del browser protege los datos enviados al LLM. El modo incógnito no cifra el tráfico ni impide que OpenAI o Anthropic reciban y procesen el texto. Solo evita que quede en el historial local del browser. No hace nada por la privacidad del prompt en el servidor remoto.

Error 2: Desactivar el entrenamiento y asumir que ya está resuelto. Desactivar el uso de datos para entrenar evita que tus conversaciones se usen en fine-tuning futuro, pero no impide que el proveedor las almacene en logs de seguridad, debugging o cumplimiento. Son dos cosas distintas con políticas distintas.

Para ir más allá, leé I built a free PII scanner for LLM prompts y descubrí cómo proteger tus datos.

Error 3: Implementar el escáner solo en el frontend. Si la detección de PII corre solo en el cliente (browser, app mobile), cualquier llamada directa a la API desde código backend la saltea completamente. El escáner tiene que estar en el layer de infraestructura que intercepta todas las requests, no solo las que vienen de la interfaz de usuario.

Preguntas Frecuentes

¿Qué información se filtra si uso prompts con datos reales en IA?

Cualquier texto que mandás a ChatGPT, Claude o Gemini llega a los servidores del proveedor y puede quedar en logs, usarse para entrenar (dependiendo del plan y configuración), o exponerse ante un incidente de seguridad. Los datos más riesgosos son credenciales, claves API, datos de clientes y documentos con información personal. El incidente de enero 2026 en México mostró que 195 millones de registros pueden filtrarse usando estos modelos como vector. Relacionado: diferencias entre Gemini y GPT.

¿Cómo funciona un escáner PII para prompts IA?

Intercepta el texto antes de enviarlo al modelo y corre patrones de detección (regex para formatos estructurados, modelos NER para contexto) que identifican entidades sensibles. Dependiendo de la configuración, bloquea el envío o redacta los valores detectados reemplazándolos por tokens neutros. AI Security Gateway, por ejemplo, detecta 28+ categorías de entidades en menos de 100ms con más de 50 patrones.

¿Existe una herramienta gratis para detectar PII en prompts?

Sí, varias. AI Security Gateway tiene un leak checker gratuito online que no requiere registro. Microsoft Presidio y NeMo Guardrails son open source con licencia permisiva. Prompt Armour es una extensión de browser gratuita que corre todo localmente sin enviar datos a ningún servidor externo.

¿Cómo evito filtrar credenciales y claves API a modelos de lenguaje?

Nunca pegues archivos .env, logs con variables de entorno ni outputs de herramientas de debugging directamente en un prompt. Si necesitás mostrarle estructura al modelo, reemplazá los valores reales por placeholders antes de copiar. Para equipos, un proxy con DLP (como Presidio o Portkey) intercepta esos datos automáticamente antes de que lleguen al proveedor.

¿ChatGPT guarda mis prompts aunque desactive el entrenamiento?

Desactivar el uso de datos para entrenamiento (Settings > Data Controls en ChatGPT) evita que tus conversaciones se usen en mejoras del modelo, pero no elimina el almacenamiento en logs de seguridad e infraestructura que OpenAI mantiene por razones operativas y de cumplimiento. La política de retención varía y está detallada en sus términos de servicio. Para datos verdaderamente sensibles, la recomendación es no ingresarlos en ningún plan de consumo masivo.

Conclusión

El escáner PII para prompts IA dejó de ser una herramienta de nicho para equipos de seguridad y pasó a ser algo que cualquier persona que trabaja con LLMs debería tener incorporado. El incidente de México en enero 2026 fue una demostración concreta de escala, pero los riesgos cotidianos son más silenciosos: credenciales en logs, datos de clientes en CSVs, contratos con información personal.

El paso más fácil de implementar hoy es el más bajo tecnológicamente: no pegués datos que no publicarías en público. Si necesitás algo más robusto, Microsoft Presidio (open source, Python) es el punto de entrada más razonable para equipos técnicos. AI Security Gateway sirve para verificar prompts ad hoc sin instalar nada. Y si usás ChatGPT o Claude en planes Free o Pro, chequeá la configuración de privacidad: está activa por defecto a favor del proveedor, no tuya.

Fuentes

Desplazarse hacia arriba