Los mejores prompts GPT Image v2 ya tienen repositorio público en GitHub, y la diferencia con escribir cualquier cosa es abismal. Con el modelo aún en testing dentro de ChatGPT, quienes armaron colecciones estructuradas de prompts están reportando resultados que el v1 no podía alcanzar: texto renderizado correctamente en imágenes, fotorrealismo que zafa para producción, y consistencia visual que antes requería diez intentos.
En 30 segundos
- GPT Image v2 es el próximo modelo de generación de imágenes de OpenAI, actualmente en pruebas dentro de ChatGPT, con mejoras confirmadas en renderizado de texto (hasta 99% de precisión) y fotorrealismo.
- Existen repositorios en GitHub con colecciones de prompts optimizados para este modelo: gpt-image-2 y Awesome-GPT4o-Image-Prompts son los más activos.
- El framework S-C-L-P (Subject, Context, Look, Parameters) es el enfoque más efectivo para estructurar prompts que dan resultados predecibles.
- Prompts con estructura formal reducen errores de generación en un 76% respecto a prompts en lenguaje libre, según datos de MindStudio.
- Las herramientas de generación automática de prompts aceleran el proceso, pero los mejores resultados siguen viniendo de prompts escritos a mano con parámetros técnicos específicos.
GPT es un modelo de lenguaje grande desarrollado por OpenAI que utiliza arquitectura transformer, diseñado para generar texto, responder preguntas y realizar diversas tareas de procesamiento de lenguaje natural. Fue introducido por primera vez en 2018.
Qué es GPT Image v2 y por qué cambia el juego en generación de imágenes
GPT Image v2 es el próximo modelo de generación de imágenes de OpenAI, sucesor directo del modelo usado en DALL-E 3 y ChatGPT hasta ahora, con capacidades de renderizado de texto, comprensión contextual y fotorrealismo que superan notablemente a su predecesor. Según información filtrada y confirmada parcialmente a principios de 2026, el modelo alcanza 99% de precisión en renderizado de texto dentro de imágenes, un problema que el v1 nunca resolvió del todo.
Si alguna vez intentaste generar una imagen con texto legible usando el modelo anterior, sabés exactamente de qué hablo. Pedías “cartel que diga BIENVENIDOS” y te devolvía algo que parecía cirílico mezclado con wingdings.
GPT Image v2 también mejora la comprensión contextual: entiende relaciones espaciales más complejas, maneja mejor las instrucciones de composición, y genera imágenes fotorrealistas que se acercan a lo que producen los mejores modelos especializados. Está en testing activo dentro de ChatGPT (rollout gradual desde principios de 2026), y ya hay usuarios con acceso que subieron resultados a GitHub.
Eso sí: el modelo no elimina la necesidad de saber escribir buenos prompts. Lo que hace es que un buen prompt ahora da resultados mucho más predecibles.
La ingeniería de prompts: de la intuición a la disciplina técnica
Hasta hace un par de años, escribir un prompt era básicamente adivinar. Probabas “fotografía de una montaña al atardecer”, veías qué salía, ajustabas, y repetías hasta tener algo tolerable. Funcional, pero lento y con resultados inconsistentes.
Según la documentación oficial de OpenAI sobre ingeniería de prompts, la diferencia entre un prompt vago y uno estructurado no es estética, es funcional: los prompts con estructura definida reducen errores de generación en un 76% y producen resultados reproducibles. No es poca diferencia.
La demanda de prompt engineers creció 135.8% durante 2025, según datos de MindStudio. El motivo no es misterioso: a medida que los modelos se vuelven más capaces, la calidad del input se vuelve el cuello de botella real. El modelo puede hacer más, pero solo si le das instrucciones que aprovechen esa capacidad.
Escribir prompts para imágenes es un lenguaje técnico específico, no un ejercicio de creatividad libre. Tiene gramática propia: orden de elementos, jerarquía de descriptores, parámetros técnicos que el modelo interpreta de manera distinta dependiendo de dónde los pongas. Más contexto en como explicamos en nuestra guía sobre ChatGPT.
Framework S-C-L-P: los cuatro elementos que estructuran un prompt efectivo
El framework más consistente que apareció en los repositorios de GitHub y en la comunidad de prompt engineers trabaja con cuatro componentes. No es el único modelo que funciona, pero es el más adoptado y el que da resultados más predecibles con GPT Image v2.
Subject (Sujeto)
El sujeto tiene que ser específico hasta el punto de no dejar ambigüedad. No “una persona”, sino “una mujer de unos 35 años, pelo oscuro corto, mirando hacia la izquierda, expresión concentrada”. No “un auto”, sino “un sedán negro, año aproximado 2020, estacionado sobre asfalto mojado”.
La especificidad no limita la creatividad del modelo. Lo que hace es eliminar la variabilidad no deseada.
Context / Composition (Contexto y composición)
Ponele que querés una imagen de producto para e-commerce. La diferencia entre “fondo blanco” y “fondo blanco puro studio, plano cenital, espacio negativo en el 60% superior de la imagen, sombra suave difusa” es la diferencia entre una imagen que parece sacada con el celular y una que parece de catálogo profesional.
Este componente incluye: encuadre (plano general, primer plano, detalle), ángulo (nivel, picado, contrapicado), y distribución espacial de los elementos.
Look / Style (Estilo visual)
Acá es donde la gente suele ir a lo genérico (“estilo cinematográfico”, “artístico”) y pierde especificidad. Los prompts que funcionan mejor en GPT Image v2 referencian estilos concretos: “fotografía editorial fashion tipo Vogue años 90”, “ilustración vectorial flat con paleta de dos colores”, “pintura al óleo impresionista con pinceladas visibles”.
Los repositorios de GitHub documentan qué referencias de estilo el modelo reconoce bien y cuáles tiende a ignorar o interpretar de manera inconsistente. Eso solo ya vale revisar esos repos. Esto se conecta con lo que analizamos en así como detallamos en nuestro artículo sobre GPT.
Parameters (Parámetros técnicos)
Resolución, relación de aspecto, temperatura de color, apertura de diafragma simulada. Ejemplos que funcionan: “aspect ratio 16:9”, “ISO bajo, f/1.8 bokeh”, “temperatura de color 5500K luz natural”, “grain analógico suave”. GPT Image v2 interpreta estos parámetros fotográficos con mucho más precisión que el v1 (que los tendía a ignorar si el prompt tenía otra información más llamativa).
Los repositorios de GitHub con prompts GPT Image v2: qué hay y cómo usarlos
Hay varios repos activos en GitHub con colecciones de prompts probados para GPT Image v2. gpt-image-2 es el más referenciado, con prompts organizados por categoría: fotorrealismo, arte conceptual, diseño de producto, texto en imagen (donde el v2 brilla). También está Awesome-GPT4o-Image-Prompts, que mezcla prompts del modelo de visión con prompts de generación.
¿Cómo usarlos bien? No copiando directamente. Un prompt del repo fue optimizado para un caso específico, con una intención específica. Copiarlo para otro caso probablemente te dé un resultado mediocre.
Lo que sí tiene sentido hacer: tomá la estructura del prompt, identificá qué está en posición de Subject, qué está en Context, qué descriptores de estilo usa. Después sustituí los valores por los tuyos. Es un template, no un copy-paste.
Los repos también documentan qué salió mal: prompts que generaban artefactos, que el modelo interpretaba de manera inesperada, o que funcionaban inconsistentemente según el seed. Esa información negativa es tan útil como los ejemplos buenos.
Técnicas avanzadas que separan los resultados profesionales del promedio
Los detalles de iluminación son los más subutilizados. “Luz natural” es casi un no-prompt en términos de especificidad. “Luz natural lateral derecha, hora dorada, sombras largas cálidas” es otra cosa. Con GPT Image v2, los descriptores de iluminación tienen impacto directo en la calidad percibida de la imagen porque el modelo aprendió con sets de datos mucho más grandes con etiquetas técnicas de fotografía.
Otros elementos que marcan diferencia:
- Color grading explícito: “paleta desaturada con toques de teal y orange” en vez de “colores cinematográficos”
- Textura de superficie: especificar texturas en materiales hace que el fotorrealismo del v2 se active correctamente
- Jerarquía visual: indicar qué elemento tiene que dominar el frame y qué está en segundo plano
- Negaciones específicas: “sin marcas de agua”, “sin texto superpuesto”, “sin bordes borrosos” — el v2 los interpreta mejor que el v1
¿Y qué evitar? Modificadores emocionales vagos (“que transmita paz”, “que inspire confianza”) sin anclaje visual. El modelo no sabe qué forma visual tiene “confianza”. Si querés transmitir confianza, describí visualmente qué comunica eso: postura, expresión, entorno, paleta de color.
Herramientas de generación automática de prompts: cuándo ayudan y cuándo no
Según MindStudio, hay asistentes de prompts que toman una descripción en lenguaje libre y la convierten en un prompt estructurado con parámetros técnicos. Algunos están integrados directamente en workflows de ChatGPT, otros son herramientas separadas.
Funcionan bien para: acelerar el proceso cuando ya sabés qué querés pero no querés escribir todo el prompt desde cero, iterar variaciones de un prompt base, y casos de uso repetitivos donde la estructura cambia poco. Sobre eso hablamos en si recién empezás con ChatGPT.
No funcionan bien para: casos donde el brief visual es complejo y requiere interpretación, situaciones donde necesitás control preciso sobre cada componente, o cuando el resultado tiene que ser consistente con una guía de marca específica.
La trampa de los generadores automáticos es que tienden a producir prompts verbosos que parecen completos pero que en realidad están rellenos de adjetivos genéricos. Un prompt de 200 palabras con descriptores vagos suele rendir menos que uno de 80 palabras con 10 parámetros técnicos específicos.
Comparativa: prompts genéricos vs. prompts estructurados en GPT Image v2
| Caso de uso | Prompt genérico | Prompt estructurado (S-C-L-P) | Diferencia observada |
|---|---|---|---|
| Foto de producto | “Zapatilla deportiva sobre fondo blanco” | “Zapatilla deportiva gris, vista lateral 3/4, fondo blanco studio puro, luz cenital suave, sombra difusa en base, f/8, aspecto 1:1” | Consistencia y calidad profesional vs. resultado variable |
| Retrato | “Mujer joven mirando a cámara” | “Mujer 30 años, pelo castaño, mirada directa, primer plano, luz Rembrandt desde izquierda, fondo desenfocado neutro, tono piel cálido, f/2.0” | Control de iluminación y encuadre reales |
| Texto en imagen | “Cartel que diga OFERTA” | “Cartel tipografía sans-serif bold, texto ‘OFERTA’ en rojo sobre fondo blanco, centrado, sin ornamentos, estilo minimalista comercial” | Texto legible vs. artefactos con v1; v2 lo renderiza correctamente |
| Ilustración | “Ilustración de ciudad futurista” | “Cityscape 2080, perspectiva aérea, arquitectura orgánica vidrio y verde, paleta azul-verde-blanco, estilo ilustración editorial, aspecto 16:9” | Estilo cohesivo vs. mezcla arbitraria de referencias |

Casos reales: cómo se usa GPT Image v2 en producción hoy
Ponele que gestionás el contenido visual de una tienda online con 500 productos. El problema de siempre: fotos inconsistentes, fondos distintos, iluminación que varía entre categorías. Con un prompt base estructurado para cada categoría de producto (calzado, ropa, accesorios), GPT Image v2 genera imágenes con consistencia visual suficiente para producción en muchos casos, sin necesidad de sesión fotográfica.
No es ciencia ficción. Equipos de marketing digital en Argentina y resto de Latinoamérica ya lo están haciendo para variaciones de imagen para anuncios pagos, donde necesitás 15 versiones del mismo concepto con pequeñas diferencias para testear creatividades. Con el modelo anterior era más ensayo-error; con v2 y prompts estructurados, la tasa de imágenes utilizables por sesión subió de manera notoria.
En diseño editorial, la combinación de GPT Image v2 con prompts de estilo específicos permite generar ilustraciones coherentes para una serie de artículos. Un equipo de contenido puede definir el “lenguaje visual” de una publicación en un prompt base y aplicarlo con variaciones de sujeto para cada nota.
Qué está confirmado y qué todavía no
- Confirmado: GPT Image v2 está en testing dentro de ChatGPT con rollout gradual desde principios de 2026. El renderizado de texto en imágenes mejoró notablemente respecto al v1. Los repositorios de GitHub con prompts son reales y activos.
- Confirmado: El framework S-C-L-P funciona en la práctica. Las métricas de reducción de errores del 76% con prompts estructurados están documentadas por MindStudio.
- No confirmado: Fecha exacta de lanzamiento general de GPT Image v2. OpenAI no anunció una fecha pública.
- No confirmado: Precios de API para el nuevo modelo. Se espera una estructura similar al modelo actual, pero no hay cifras oficiales todavía.
- Por confirmar: Si el modelo estará disponible vía API en el mismo momento que el rollout en ChatGPT, o si habrá una ventana de exclusividad para usuarios de ChatGPT Plus/Pro.
Errores comunes al escribir prompts para generación de imágenes
Acumular adjetivos sin estructura
El error más frecuente: “una foto hermosa, increíble, detallada, realista, impresionante de una montaña”. Esos adjetivos no le dicen nada al modelo que no sepa. Lo que sí funciona: “fotografía de alta montaña, pico nevado, luz de amanecer, cielo degradado naranja-azul, perspectiva desde vallada, aspecto 3:2”. Cada palabra hace trabajo concreto.
Poner el texto deseado al final del prompt
Si querés que aparezca texto legible en la imagen, tiene que ir bien especificado y con suficiente contexto visual. Un prompt que termina con “…y que diga HOLA en letras grandes” tiende a generar texto deformado porque el modelo no tiene instrucciones claras sobre tipografía, posición y contraste. Con GPT Image v2 esto mejoró, pero sigue siendo mejor especificarlo al principio y con parámetros: tipo de letra, color, posición en el frame, tamaño relativo. Tema relacionado: en contextos de seguridad empresarial.
Ignorar el aspecto ratio hasta el final
¿Cuántas veces generaste una imagen que quedó perfecta… y después te diste cuenta que la necesitabas en formato vertical y el sujeto quedó cortado al recortarla? El aspecto ratio va en el prompt, no se ajusta después. 1:1 para redes, 16:9 para banners, 9:16 para stories. GPT Image v2 respeta estos parámetros con más consistencia que el v1.
Reutilizar prompts de DALL-E 3 sin adaptar
GPT Image v2 interpreta los parámetros técnicos de manera diferente. Los prompts optimizados para DALL-E 3 pueden funcionar, pero muchos tienen workarounds específicos para limitaciones del v1 que en el v2 ya no hacen falta (y a veces interfieren). Partí de los repos de v2, no de los de v1.
Preguntas Frecuentes
¿Cómo escribir un buen prompt para GPT Image v2?
Usá el framework S-C-L-P: Subject (sujeto específico), Context/Composition (encuadre y composición), Look/Style (estilo visual con referencias concretas), y Parameters (datos técnicos como aspecto ratio, apertura, temperatura de color). Un prompt efectivo tiene entre 60 y 120 palabras con parámetros verificables, no adjetivos genéricos. Evitá frases como “hermoso”, “increíble” o “fotorrealista” sin respaldo técnico.
¿Dónde encontrar los mejores prompts de ejemplo para GPT Image v2?
Los repositorios más activos en GitHub son gpt-image-2 y Awesome-GPT4o-Image-Prompts. Ambos tienen prompts organizados por categoría y documentan resultados. No copies directamente: usá los prompts como templates, identificá su estructura, y adaptá los valores a tu caso de uso. Los prompts de repositorios están optimizados para casos específicos.
¿Qué mejoras concretas tiene GPT Image v2 respecto al v1?
Renderizado de texto dentro de imágenes con hasta 99% de precisión (el v1 era notoriamente malo en esto), mejor fotorrealismo en retratos y fotografía de producto, comprensión más precisa de instrucciones de composición y parámetros técnicos fotográficos. El modelo también interpreta mejor las instrucciones de iluminación y las negaciones explícitas en el prompt.
¿Vale la pena usar generadores automáticos de prompts?
Para casos de uso repetitivos y cuando ya tenés claro el resultado que buscás, pueden acelerar el proceso. El problema es que tienden a generar prompts verbosos con adjetivos genéricos que parecen completos pero rinden menos que prompts cortos bien estructurados. Si necesitás control preciso o consistencia de marca, escribir el prompt a mano con parámetros técnicos específicos sigue siendo el mejor enfoque.
¿Cuándo va a estar disponible GPT Image v2 para todos?
A principios de 2026 está en rollout gradual dentro de ChatGPT, con acceso prioritario para suscriptores Plus y Pro. OpenAI no anunció una fecha de lanzamiento general ni confirmó la disponibilidad vía API al mismo tiempo que el rollout en ChatGPT. La disponibilidad en la API pública podría demorarse algunas semanas después del lanzamiento general.
Conclusión
GPT Image v2 cambia lo que es posible hacer con generación de imágenes por texto, pero el modelo solo es tan bueno como el prompt que le das. Los repositorios de GitHub con prompts estructurados son el atajo más directo para empezar con resultados decentes: no para copiar, sino para entender qué estructura funciona y por qué.
El framework S-C-L-P no es burocracia. Es la diferencia entre gastar veinte intentos hasta dar con algo tolerable, y llegar en dos o tres a algo que se puede usar. Para equipos que trabajan con contenido visual a escala, esa diferencia se traduce en tiempo real.
Si vas a empezar, abrí los repos de GitHub, analizá tres o cuatro prompts de la categoría que te interesa, y antes de generar nada revisá que tu prompt tenga los cuatro componentes del framework. Con GPT Image v2, eso solo ya va a marcar diferencia.
