Aislar la voz con inteligencia artificial

AUTOR: Alejandro Bergasa Alonso

Al hacer obras derivadas de un vídeo no es raro que necesites utilizar un fragmento de alguien que habla ante la cámara. El problema es que muchas veces este fragmento también incluye una música de fondo que te gustaría eliminar. Actualmente existen soluciones de inteligencia artificial (IA) que lo hacen, como AudioStrip.

Si conoces a los autores del vídeo, quizá te puedan facilitar el fragmento de la grabación original sin música. Si no es así, todavía hay alguna alternativa para aislar la voz (con mayor o menor calidad). Una opción es usar un editor de sonido como Audacity. El proceso es bastante técnico y no siempre es posible. Si no tienes formación en edición de sonido, una solución que da muy buenos resultados (de calidad casi perfecta) es la de la página AudioStrip. El acceso es gratuito y no exige que te registres. Se trata de una solución de IA en la que a partir de un archivo de sonido separa en dos ficheros de audio las voces y la música. Audiostrip ganó la medalla #5 Product of the day de Product Hunt en 2021 y seguramente es una de las alternativas existentes que mejores resultados ofrece. Además, su política de privacidad y los términos de uso generan confianza.

Desde la página principal se arrastra (o se selecciona con Browse) el archivo de sonido que queremos procesar. Podremos elegir entre aislar las voces, la parte instrumental (música) o ambas cosas (opción por defecto). Si sólo queremos la voz, marca Vocals y tardará menos tiempo. También hay que seleccionar el algoritmo a utilizar. En la fecha de escritura de esta lección nos propone dos opciones. Spleeter es rápido y da peores resultados, mientras que Demucs V3 es más lento y consigue resultados más limpios. Yo te recomiendo la segunda opción. Para que te hagas una idea, procesar un audio de 2 minutos le puede costar a Demucs V3 entre 10 y 20 minutos. La propia página ofrece una estimación del tiempo de proceso en función del archivo y las opciones elegidas.

Nosotros aplicamos Demucs V3 a un vídeo y obtuvimos un resultado prácticamente igual que el audio original, sin residuos de música y sin que se "enlatase" la voz (esto sucede a menudo con otros aisladores). La calidad de los resultados junto a la nula formación la convierte en una solución a tener en cuenta al hacer obras derivadas de vídeos.

Aislar la voz con inteligencia artificial

No comments:

Post a Comment