Cuando se trabaja en edición de contenidos, siempre hemos de disponer de unas herramientas adecuadas. Por ejemplo, para los textos disponemos de procesadores de texto como Microsoft Word, OpenOffice… Pero estas herramientas disponen de muchas facilidades a costa del dato sobre el que se trabaja: palabras. Un conjunto de bits encadenados. Pero cuando trabajamos con estructuras más complicadas, las herramientas, como es normal, requieres (1) de más experiencia para poder ser usadas y (2) de más tiempo de edición.
En concreto, los contenidos audiovisuales son especialmente difícil de editar: hablamos de estructuras de varias dimensiones de bytes. ¡Y son muchos bytes, ordenados! Hablemos de un caso concreto: las imágenes extraídas de la web suelen ser de media o baja calidad y, al añadirlos a desplegables de sitios web, como cabeceras o cualquier contenedor, la falta de resolución es notable: distosiones, cuadrantes de la imagen quedan fuera del contenedor, etc.
No obstante, desde el año pasado estamos viviendo una revolución en el mundo de las tecnologías basadas en machine learning (ML): gracias a herramientas tan populares como ChatGPT o StableDiffusion 2, basadas en arquitecturas state-of-the-art (transformers, CGGANs, Variational Autoencoders…) la forma en la que interactuamos con estos contenidos en el día a día está cambiando.
Ahora es posible, por ejemplo, generar, a partir de imágenes antiguas (sepia, escala de grises), imágenes a color o vídeos completos a color de personas que ya no están a partir de un conjunto de menos de diez fotos [1].
Es más, muchas de esas herramientas basadas en ML se pueden usar para la aceleración del desarrollo de proyectos y añadir calidad, de otra forma, imposible debido a los costes, temporal o monetarios. Por ejemplo, se puede pedir a un modelo como Stable Diffusion que genere imágenes de alta resolución con las que otra IA pueda generar un vídeo: o directamente, que exista otro bot que genere automáticamente el vídeo sobre el tema que se le ordene. O los subtítulos [2]. O el audio [3].
No obstante, existen algunas pegas o detalles todavía sin aclarar: ¿De quién es la propiedad intelectual de los contenidos que genere el modelo? ¿Bajo qué licencia está registrados? Estas son cuestiones abiertas a día de hoy pero, por el momento, podríamos optar por aplicar mejorar basadas en ML a contenidos existentes [4] y seguir experimentando con los modelos generativos ¿Estamos hablando de que los bots más modernos están registrados bajo las versiones más actualizadas de las cláusulas “as-is” [5]?
El futuro es fascinante, y nadie sabe a ciencia cierta lo que se estará cocinando en las prodigiosas mentes de Yann LeCun u otros maestros. Quizá hasta podamos usar contenidos generados artificialmente, tan reales, que parezcan de estudio. Pero, ¿A qué coste?
No comments:
Post a Comment