Stable Audio 3.0 Stability AI: música de 6 minutos

Stable Audio 3.0 Stability AI es la nueva familia de modelos de generación musical que Stability AI lanzó el 20 de mayo de 2026, capaz de crear composiciones de hasta 6 minutos 20 segundos manteniendo estructura melódica coherente de principio a fin. Son cuatro modelos: dos pequeños para dispositivos (459M parámetros cada uno), uno mediano (1.4B) y uno grande (2.7B), con pesos abiertos para los tres primeros.

En 30 segundos

Stability AI lanzó Stable Audio 3.0 el 20 de mayo de 2026: cuatro modelos que van de 459M a 2.7B parámetros.
Los modelos medium y large generan hasta 6 minutos 20 segundos de audio estructurado, más del doble que Stable Audio 2.0.
Small SFX, small y medium tienen pesos abiertos en Hugging Face; el modelo large solo está disponible por API paga.
Empresas con más de USD 1 millón en ingresos necesitan licencia enterprise para usar el large model.
El entrenamiento se hizo con bibliotecas licenciadas de AudioSparx, aunque hay una demanda judicial activa desde enero de 2026 por opt-out ignorados.

Qué es Stable Audio 3.0 Stability AI y por qué llegó en este momento

Ponele que sos youtuber y cada vez que subís un video tenés que revisar tres veces si la música de fondo te va a generar una disputa de derechos. O que sos productor indie y el presupuesto para un músico de sesión simplemente no existe. Para esos casos, Stable Audio 3.0 viene a cambiar bastante los números.

Stability AI, la empresa detrás de Stable Diffusion, anunció el 20 de mayo de 2026 una familia completa de modelos de audio bajo el nombre Stable Audio 3.0. El modelo más grande puede generar composiciones de más de seis minutos con estructura musical coherente (intro, desarrollo, outro), lo que lo convierte en el generador de audio IA con mayor capacidad de duración disponible con pesos abiertos hasta ahora.

El salto respecto a la versión anterior es real: Stable Audio 2.0, lanzado en 2024, llegaba a un máximo de tres minutos. Stable Audio Open 1.0, también de 2024, generaba hasta 47 segundos. Que ahora los modelos medium y large lleguen a 6 minutos 20 segundos no es marketing, es más del doble de lo que podían hacer antes.

Cuatro modelos, capacidades bien distintas

Según el anuncio cubierto por TechCrunch, la familia Stable Audio 3.0 agrupa cuatro modelos con propósitos distintos:

Small SFX (459M parámetros): diseñado específicamente para efectos de sonido, generación en dispositivos, hasta 2 minutos de audio.
Small (459M parámetros): música y audio general en dispositivos, hasta 2 minutos.
Medium (1.4B parámetros): composiciones completas de hasta 6 minutos 20 segundos, pesos abiertos.
Large (2.7B parámetros): el tope de la familia, misma duración máxima, solo disponible por API o autoalojamiento pago.

Los modelos medium y large mantienen estructura musical a lo largo de toda la composición: el tono melódico no se cae a los dos minutos, las transiciones tienen sentido, y el resultado puede usarse directamente o como base para editar. Audio stereo a 44.1kHz, que es el estándar para distribución musical.

El small SFX es interesante para un caso de uso que suele quedar afuera de la conversación: efectos de sonido para videojuegos, aplicaciones o videos cortos. No todo el mundo necesita una canción de seis minutos, a veces necesitás el sonido de una notificación que no suene genérica.

Open source vs. modelo pago: qué podés usar y qué no

Small SFX, small y medium están disponibles con pesos abiertos en Hugging Face bajo el repositorio de Stability AI. Eso significa que podés descargarlos, ajustarlos, integrarlos en tus proyectos y modificarlos, siempre que respetes la licencia.

El large model es otra historia. Solo está disponible por API o a través de servicios de autoalojamiento pagos. Y hay una cláusula que importa: empresas con más de USD 1 millón en ingresos anuales necesitan una licencia enterprise. (Si tu empresa factura menos que eso, zafás con el acceso estándar.) Tema relacionado: cómo funcionan los modelos generativos.

Para experimentar sin instalar nada, stableaudio.io tiene acceso web gratuito para probar el modelo. Es la forma más rápida de ver qué genera antes de decidir si vale la pena invertir tiempo en la instalación local.

El repo de herramientas está en GitHub bajo Stability-AI/stable-audio-tools con instrucciones de instalación. Para correr el medium model en local de forma razonable necesitás una GPU decente; H100 es lo ideal, pero no es el único camino.

Comparativa: Stable Audio 3.0 vs. los otros generadores

Herramienta	Duración máxima	Voces/letras	Pesos abiertos	Precio base	API disponible
Stable Audio 3.0 Large	6 min 20 seg	No	No (large)	Pago (API)	Sí
Stable Audio 3.0 Medium	6 min 20 seg	No	Sí	Gratis	No
Suno v5	~4 min	Sí	No	USD 8/mes	Sí
Google Lyria 2	~3 min	Limitado	No	API paga	Sí
ElevenLabs Music	~3 min	Sí	No	USD 22/mes	Sí
MiniMax Music	~4 min	Sí	No	API paga	Sí

stable audio 3.0 stability ai diagrama explicativo

La ventaja de Stable Audio 3.0 es clara en duración y en apertura del código. La desventaja también: no genera voces ni letras. Si necesitás una canción con cantante, Suno o ElevenLabs te dan eso. Si necesitás instrumentales largas de calidad para uso comercial con control total del modelo, Stable Audio 3.0 es el único que hoy te da las dos cosas juntas.

El tema del entrenamiento y los derechos

Stability AI dijo que Stable Audio 3.0 se entrenó exclusivamente con material licenciado de AudioSparx. Eso es lo que diferencia este modelo de otros que entrenaron raspando internet sin permiso explícito.

El punto es que hay una demanda activa. En enero de 2026, un músico demandó a Stability AI y AudioSparx argumentando que su música fue usada para entrenar el modelo a pesar de haber pedido que no se usara (opt-out). No es el único caso en el sector: los litigios de Warner y Universal contra Suno y Udio por uso no autorizado de grabaciones protegidas siguen activos.

¿Alguien sabe cómo va a resolver esto la Justicia? Todavía no, y probablemente pasen años antes de que haya jurisprudencia clara.

Lo que sí está claro es que el ecosistema legal alrededor de la IA y la música está en movimiento, y cualquier empresa que use estos modelos en producción debería tener eso en cuenta antes de firmar contratos que incluyan música generada con IA.

Casos de uso concretos para creadores argentinos

Si tenés un canal de YouTube con 50.000 suscriptores y subís tres videos por semana, el costo de licenciar música de stock puede llegar a USD 40-80 mensuales fácilmente, más el tiempo perdido buscando tracks que no suenen todos iguales. Con el medium model descargado en local, ese costo baja a cero y cada video tiene música que nadie más está usando.

Para productores y músicos independientes

Acá viene lo bueno: el flujo de trabajo cambia. En vez de arrancar desde cero, generás un instrumental de 3-4 minutos con la vibe que buscás, lo usás como referencia rítmica o tonal, y construís encima. Es como tener un músico de sesión disponible a las 2 AM que no se cansa y no cobra por hora. Cubrimos ese tema en detalle en tal como hemos visto con GPT.

Eso sí: el modelo no genera voces. Si tu proyecto depende de letras y cantante, vas a necesitar combinarlo con otra herramienta o grabar las voces vos.

Para cineastas y creadores de contenido corto

Un cortometraje de 5 minutos necesita música que dure los 5 minutos y que no corte extraño al mitad. Antes, eso te obligaba a encadenar tracks o a pagar composición personalizada. Con el medium model, generás una pieza de exactamente el largo que necesitás, adaptada al mood del guión.

Lo mismo para TikTok y Reels: si hacés contenido de 60-90 segundos, el small model genera exactamente eso, con estructura, sin que el audio suene cortado.

Para desarrolladores y aplicaciones

El small SFX es particularmente útil para aplicaciones que necesitan efectos de sonido únicos sin pagar licencias por cada uno. Si estás construyendo un juego indie o una app con feedback sonoro, integrar el modelo via API te da variedad infinita sin banco de sonidos.

Si tu proyecto implica el despliegue en servidores, vale la pena evaluar dónde alojarlo: donweb.com tiene opciones de cloud y VPS en Argentina para proyectos que necesiten baja latencia en la región.

Derechos de autor: qué podés y qué no podés hacer con la música generada

Este es el punto donde más gente se equivoca, así que vale la pena ser directo.

En la mayoría de los marcos legales actuales, la música generada completamente por IA sin intervención creativa humana significativa no es registrable como obra propia. En España y la Unión Europea, la postura es clara: el autor tiene que ser una persona física. En Argentina, la Ley 11.723 tiene una interpretación similar aunque todavía no hay jurisprudencia específica sobre IA.

Eso no significa que no puedas usarla. Podés usar música generada para tus videos, proyectos, aplicaciones. Lo que no podés hacer es registrarla como composición tuya ante SADAIC o similar si la IA hizo todo el trabajo. (Si vos editaste, arreglaste, o modificaste sustancialmente el output, el análisis cambia, pero ese terreno es pantanoso.)

Otro riesgo real: si el modelo fue entrenado con obras protegidas sin licencia, la música generada podría tener problemas de derechos aunque vos no lo supieras. Por eso los modelos open source entrenados con datos CC0 o con licencias claras son menos riesgosos para uso comercial serio. Para más detalles técnicos, mirá similar a otros modelos de IA.

Qué está confirmado / Qué todavía no

Confirmado

Lanzamiento el 20 de mayo de 2026 según el anuncio oficial de Stability AI.
Cuatro modelos: small SFX (459M), small (459M), medium (1.4B), large (2.7B).
Duración máxima de 6 minutos 20 segundos para medium y large.
Pesos abiertos para small SFX, small y medium en Hugging Face.
Large model solo por API/autoalojamiento pago; licencia enterprise para empresas +USD 1M en ingresos.
Entrenamiento con biblioteca AudioSparx licenciada, según Stability AI.

No confirmado o pendiente

Precio exacto de la API para el large model (no publicado al momento del lanzamiento).
Soporte futuro para voces o letras en versiones subsiguientes.
Resolución de la demanda judicial de enero de 2026 por uso de opt-outs ignorados.
Planes de integración con DAWs o herramientas de edición de audio profesionales.

Errores comunes al usar generadores de audio IA

Creer que “pesos abiertos” significa “sin restricciones comerciales”. El medium model tiene pesos abiertos, pero eso no significa que podés usarlo para cualquier cosa sin leer la licencia. Las licencias de modelos IA suelen tener restricciones sobre uso comercial a partir de ciertos ingresos o para ciertos sectores. Leé siempre el LICENSE antes de integrar en producción.

Usar el output directamente sin revisar. Los modelos de generación musical tienen frecuencias y dinámicas que no siempre se traducen bien a todos los sistemas de reproducción. Un track que suena perfecto en auriculares puede tener problemas en parlantes. Pasale al menos un analizador espectral antes de usarlo en un proyecto final.

Ignorar el contexto legal por “no es para uso comercial”. “Es para mi canal de YouTube que no monetizo” no es una protección legal completa. Si el canal tiene monetización futura o si la música aparece en contenido que sí genera ingresos indirectos, el análisis cambia. Mejor tener claro el modelo de licencia desde el principio.

Cómo empezar hoy

Tres caminos según lo que necesitás:

Probar sin instalar nada: entrás a stableaudio.io, hay acceso web gratuito para generar y escuchar. Ideal para ver si el resultado te convence antes de invertir tiempo en configuración.

Usar los modelos open source en local: descargás los pesos desde Hugging Face (repositorio stabilityai/stable-audio-open-1.0 como base de referencia, aunque el 3.0 estará en el mismo espacio), instalás las dependencias de stable-audio-tools, y corrés por línea de comandos. Necesitás Python, CUDA, y una GPU con al menos 12GB VRAM para el medium model de forma cómoda.

API para producción: para el large model o para integración en aplicaciones, la API es el camino. Al momento del lanzamiento los precios no estaban publicados, pero según el patrón histórico de Stability AI deberían seguir un esquema de créditos por minuto generado.

Si querés profundizar en esto, tenemos un artículo sobre música con IA.

Preguntas Frecuentes

¿Qué es Stable Audio 3.0 y cuánto tiempo de música puede generar?

Stable Audio 3.0 es una familia de cuatro modelos de generación musical de Stability AI lanzada el 20 de mayo de 2026. Los modelos medium (1.4B parámetros) y large (2.7B parámetros) pueden generar composiciones de hasta 6 minutos 20 segundos con estructura musical coherente. Los modelos pequeños (459M parámetros) están limitados a 2 minutos y están optimizados para dispositivos. Complementá con en competencia con herramientas como Gemini.

¿Cuál es la diferencia entre Stable Audio 3.0 y Suno?

Stable Audio 3.0 genera hasta 6:20 de instrumental de alta calidad con pesos abiertos para los modelos small y medium, pero no genera voces ni letras. Suno genera canciones completas con voz y letra de hasta ~4 minutos, pero es un servicio cerrado que arranca en USD 8/mes. Si necesitás control del modelo, audio sin copyright y duración larga, Stable Audio 3.0 gana. Si necesitás letras y cantante, Suno es la opción.

¿Cómo usar Stable Audio 3.0 para crear música gratis?

Podés acceder por web en stableaudio.io sin instalar nada. Para uso local y gratuito, los modelos small SFX, small y medium tienen pesos abiertos en Hugging Face; descargás los pesos e instalás stable-audio-tools desde GitHub. El large model no está disponible de forma gratuita: solo por API paga o servicios de autoalojamiento con costo.

¿Puedo usar música generada con Stable Audio 3.0 comercialmente?

Para el modelo large, empresas con más de USD 1 millón en ingresos anuales necesitan licencia enterprise. Para los modelos con pesos abiertos, depende de los términos específicos de cada licencia: leer el LICENSE del repositorio antes de cualquier uso comercial. A nivel legal general, la música generada completamente por IA sin intervención humana significativa no es registrable como obra propia en la mayoría de jurisdicciones, incluida Argentina.

¿Cuáles son los cuatro modelos de Stable Audio 3.0 y en qué se diferencian?

Son: small SFX (459M, para efectos de sonido, hasta 2 min), small (459M, música general en dispositivos, hasta 2 min), medium (1.4B, composiciones completas hasta 6:20, pesos abiertos) y large (2.7B, máxima calidad hasta 6:20, solo por API paga). Los tres primeros tienen pesos abiertos disponibles; el large es el único cerrado.

Conclusión

Stable Audio 3.0 Stability AI es el movimiento más concreto que se hizo en 2026 para democratizar la generación musical de calidad. Cuatro modelos, tres con pesos abiertos, el tope de la familia capaz de generar más de seis minutos de música estructurada, y acceso web gratuito para probar antes de instalar.

El modelo large apunta a producción profesional y tiene estructura de licenciamiento acorde. Los modelos open source son útiles para creadores independientes que necesitan audio sin royalties con control total del stack.

Lo que no resuelve todavía: la demanda activa de enero de 2026, la falta de soporte para voces, y la ausencia de precios publicados para la API. Tomalo como lo que es: un lanzamiento sólido de herramientas reales, con algunas preguntas legales que van a tardar más en resolverse que en generarse.

Si trabajás con video, audio o creación de contenido y todavía no probaste ningún generador de música IA, este es buen momento para empezar. El medium model gratis en local es suficiente para la mayoría de los casos de uso.

Stable Audio 3.0: música de 6 minutos con IA libre