Sony AI anuncia el modelo de generación de efectos de sonido: Woosh.

Compartir en

Japón – Reconociendo que el diseño de sonido profesional requiere datos y controles fundamentalmente diferentes a los de los sistemas generales de IA de audio, Sony AI ha lanzado un modelo fundacional desarrollado específicamente para la generación de efectos de sonido.

El equipo de Sony AI entrenó simultáneamente dos versiones. Un modelo privado, optimizado para resultados con calidad de estudio, fue entrenado con bibliotecas profesionales de efectos de sonido bajo licencia, como Pro Sound Effects y BOOM. Esa misma arquitectura fue entrenada con conjuntos de datos disponibles públicamente y lanzada para que la comunidad de investigación pueda acceder a ella. El equipo de Sony AI lo denominó Woosh, en referencia a uno de los efectos de sonido más comunes utilizados en videojuegos y cine.

Woosh, desarrollado para flujos de trabajo utilizados en videojuegos, cine y medios interactivos, admite dos tareas de generación: texto a audio, generando un efecto de sonido a partir de una descripción escrita, y video a audio, generando sonido directamente desde una secuencia de video, con un texto opcional para guiar el resultado. Los diseñadores de sonido para videojuegos y cine que trabajan a partir de contenido visual en lugar de descripciones abstractas encontrarán particularmente relevante la capacidad de video a audio.

El equipo señala que existen diferencias significativas entre los conjuntos de datos públicos de audio y las bibliotecas profesionales de efectos de sonido. Los conjuntos de datos públicos pueden estar llenos de sonido ambiente y ruidos superpuestos, además de estar etiquetados de manera poco precisa. En contraste, las bibliotecas profesionales de efectos de sonido ofrecen sonidos grabados específicamente para ese propósito, cuidadosamente editados y con etiquetado y clasificación precisos que coinciden con la forma en que los profesionales buscan y describen el audio.

El equipo de Sony AI informa que el modelo privado de Woosh “supera significativamente a las alternativas públicas en datos profesionales de efectos de sonido. El modelo público supera a modelos open-source comparables en benchmarks públicos”. Evaluado con FoleyBench, el primer benchmark a gran escala diseñado para evaluar generación de audio estilo Foley a partir de video, “el modelo de video a audio de Woosh supera la línea base comparable en métricas de calidad de audio y alineación semántica, utilizando además menos parámetros”.

El equipo también ha estado desarrollando un plug-in para DAWs con soporte planificado para generación de variaciones, inpainting —la capacidad de completar una región de audio para que se integre suavemente con un sonido existente— y personalización. “Con este plug-in podemos integrarnos perfectamente en esos pipelines, flujos de trabajo y herramientas de una manera que los diseñadores de sonido puedan utilizar de forma más intuitiva”, explica Hakim Missoum, gerente de estrategia y alianzas en Sony AI.

Se prevén controles adicionales a medida que evolucione el ecosistema. La hoja de ruta incluye controles precisos de tiempo, morphing (transformar un sonido en otro utilizando una descripción semántica del objetivo), generación de loops perfectos y personalización a partir de una o pocas muestras de audio, todas capacidades que reflejan el tipo de control creativo granular que los profesionales le han indicado al equipo que necesitan.

Totalmente consciente de la controversia en torno a la IA y su posible impacto en los puestos de trabajo, el objetivo del equipo es, según se informa, “comprender dónde la IA puede funcionar como una herramienta para apoyar el proceso creativo humano”. Los controles incorporados en el plug-in y la decisión de entrenar el sistema con bibliotecas profesionales curadas bajo licencia, en lugar de datos públicos extraídos sin autorización, son expresiones de ese compromiso.

Sony AI afirma que el licenciamiento refleja una estrategia deliberada. El lanzamiento público es no comercial y está diseñado para demostrar lo que la tecnología puede hacer, con código de inferencia y pesos del modelo disponibles para la comunidad con fines de investigación y experimentación. Por el contrario, el modelo privado, entrenado con datos de calidad de estudio bajo licencia, apunta hacia aplicaciones comerciales. Como señala Missoum, el lanzamiento público “prepara el terreno para el modelo profesional que estamos desarrollando. El rendimiento no es el mismo; y ese es el punto.”

https://ai.sony/

Compartir en