MusicLM de Google parecía prometedor con su capacidad para generar música a partir de indicaciones de texto. Pero después de ponerlo a prueba, no funcionó del todo.
En enero de 2023, Google anunció MusicLM, una herramienta de inteligencia artificial experimental que podría generar música basada en descripciones de texto. Junto con la noticia, Google publicó un impresionante trabajo de investigación para MusicLM que dejó a muchas personas deslumbradas por la capacidad de conjurar música de la nada.
Dada una indicación de texto, el modelo prometió producir música de alta fidelidad que cumpliera con todo tipo de descripciones, desde el género hasta el instrumento, hasta subtítulos abstractos que describen obras de arte famosas. Ahora que MusicLM está abierto al público, decidimos ponerlo a prueba.
El intento de Google de crear un generador de música con IA
Podría decirse que convertir un mensaje de texto como "jazz relajante" en una pista lista para reproducir es el santo grial de los experimentos en música de IA. Al igual que los famosos generadores de imágenes de IA como Dall-E o Midjourney, no es necesario tener una pizca de conocimientos musicales para producir una pista que tenga una melodía y un ritmo.
En mayo de 2023, aquellos que se registraron en AI Test Kitchen de Google pudieron probar la demostración por primera vez. Recibido por una página web fácil de usar y un par de reglas de guía: electrónica y clásica los instrumentos funcionan mejor y no te olvides de especificar una "vibración": producir un fragmento de música es inimaginablemente fácil.
La velocidad es una de las pocas cosas que MusicLM realmente ofrece, junto con muestras de fidelidad relativamente alta. Sin embargo, la verdadera prueba no debía medirse solo con un cronómetro. ¿Puede MusicLM producir música real y escuchable basada en unas pocas palabras? No exactamente (llegaremos a esto en breve).
Cómo usar MusicLM en la cocina de pruebas de IA de Google
Usar MusicLM es fácil, puedes inscribirte en la lista de espera para Cocina de prueba de IA de Google si quieres darle una oportunidad.
En la aplicación web, verá un cuadro de texto en el que puede redactar un aviso con unas pocas palabras o unas pocas oraciones que describan el tipo de música que desea escuchar. Para obtener los mejores resultados, Google recomienda "ser muy descriptivo" y agrega que debe tratar de incluir el estado de ánimo y la emoción de la música.
Cuando esté listo, presione enter para comenzar a procesar. En aproximadamente 30 segundos, dos fragmentos de audio estarán disponibles para que los escuches. De los dos, tiene la opción de otorgar un trofeo a la mejor muestra que coincida con su solicitud, lo que a su vez ayuda a Google a entrenar el modelo y mejorar su resultado.
Cómo suena MusicLM
Los seres humanos han estado haciendo música desde hace al menos 40.000 años sin tener una idea definitiva de si la música vino antes, después o al mismo tiempo que el desarrollo del lenguaje. Entonces, de alguna manera, no sorprende que MusicLM no haya descifrado del todo el código de este antiguo arte universal.
Trabajo de investigación MusicLM de Google sugirió que MusicLM podría generar música a partir de subtítulos pertenecientes a obras de arte famosas, y seguir instrucciones como cambiar el género o el estado de ánimo de manera fluida siguiendo una secuencia de diferentes avisos
Sin embargo, antes de llegar a pedidos tan altos, descubrimos que MusicLM tenía varios problemas fundamentales que superar primero.
Dificultad para mantener el tempo
El trabajo más básico de cualquier músico es simplemente tocar en el tiempo. En otras palabras, apégate al tempo. Sorprendentemente, eso no es algo que MusicLM pueda hacer el 100% del tiempo.
De hecho, usando el mismo indicador 10 veces, lo que produce 20 pistas de música, solo tres llegaron a tiempo. Las 17 muestras restantes fueron más rápidas o más lentas que el tempo especificado que se escribió en "pulsaciones por minuto", un término ampliamente utilizado para describir la música.
En este ejemplo, usamos el mensaje "solo de piano clásico tocado a 80 latidos por minuto, pacífico y meditativo". Al escuchar más de cerca, la música a menudo se acelera o se ralentiza dentro de la pequeña duración de la muestra.
La música también carecía de un ritmo fuerte y sonaba como si alguien hubiera tocado play a la mitad de la pieza. Ya sea que esto haya sido intencional o no, es difícil juzgar si MusicLM realmente puede componer un comienzo o un final adecuado para una pieza musical además de seguir el ritmo.
Selección aleatoria de instrumentos
Tal vez MusicLM aún no había aprendido a tocar en tiempo estricto, por lo que pasamos a otro parámetro musical común. Queríamos ver si concedería nuestra solicitud de ciertos instrumentos.
Escribimos varios avisos diferentes que incluían descripciones como "Solo sintetizador" y "Solo bajo". Otros eran conjuntos más grandes como "Cuarteto de cuerdas" o "Banda de jazz". En general, parecía una probabilidad de 50:50 de que obtuvieras lo que pediste.
Una teoría es que el modelo asocia algunos instrumentos con géneros musicales populares. Tomemos, por ejemplo, el aviso "Solo sintetizador, progresión de acordes. Animado y optimista". En lugar de obtener un sonido de sintetizador por sí solo, MusicLM produjo una pista electrónica completa con batería y bajo.
Es posible que el modelo simplemente no haya tenido suficientes datos y suficiente capacitación para comprender la solicitud específica de un instrumento.
Las voces están fuera de la ecuación
De acuerdo con las restricciones en ese momento, el modelo no produciría música que contuviera voces. Los espinosos problemas de derechos de autor de MusicLM y las voces con errores es un factor probable de por qué Google eligió ir a lo seguro al establecer esta limitación.
Pero después de experimentar con MusicLM durante algún tiempo, nos dimos cuenta de que el control de Google sobre la salida del modelo no era exactamente férreo. Curiosamente, un mensaje como "guitarra acústica" produciría una pista que contenía voces fantasmales en el fondo que sonaban apagadas y distantes.
Si bien esto no es una ocurrencia común, te deja preguntándote sobre la capacidad de MusicLM para crear voces convincentes en primer lugar.
Con software como VOCALOID y Synthesizer V liderando el camino en Tecnología de síntesis vocal asistida por IA, la omisión de las voces del modelo actual nos deja preguntándonos si aún no es lo suficientemente bueno para competir con la tecnología existente. MusicLM bien podría tener un largo camino por recorrer antes de que los músicos canten sus alabanzas.
El futuro de los generadores de música AI
Si bien MusicLM ha hecho avanzar la tecnología de música de IA generativa, debe regresar a la escuela y aprender algunas cosas más antes de que pueda asumir un trabajo práctico en la industria de la música.
Hasta ahora, el mejor intento de música IA generativa fue un modelo llamado JukeboxAI de OpenAI. No estaba exactamente en un estado listo para usar, y se necesitaron nueve horas para reproducir solo un minuto de música.
Por sus esfuerzos, es probable que obtenga una pista con un sonido verdaderamente extraño plagada de distorsiones de audio y artefactos. Por el lado positivo, no te ibas a aburrir escuchando las extrañas creaciones que evoca Jukebox.
A la luz de esto, MusicLM ha realizado algunos avances significativos hacia un generador de música AI fácil de usar. Casi podríamos perdonar al modelo por sus salidas aleatorias cuando te detienes a pensar en lo enormemente complicado que es generar música en forma de audio sin procesar.
Sin embargo, después de poner el modelo a trabajar, MusicLM se siente a medias en comparación con lo que Google publicó en su trabajo de investigación inicial. Rara vez un generador de imágenes de IA se equivoca con la imagen de Apple, del mismo modo, un generador de música de IA debería tener algunos conceptos básicos correctos, como el tempo y los instrumentos.
MusicLM de Google no cumple con las expectativas
Con las empresas tecnológicas compitiendo entre sí en el frente de la IA, MusicLM se siente como si hubiera entrado en pruebas públicas antes de estar listo. En lugar de tener los fundamentos correctos, el modelo parece adoptar un enfoque mucho más vago y subjetivo para producir música.
Google puede alentarlo a que sea específico con su mensaje, pero no puede manejar bien el tempo y no tiene la garantía de obtener los instrumentos que solicitó en todo momento. MusicLM puede ser interesante y una buena demostración de los poderosos avances de la IA, pero si la música es el objetivo final, todavía tiene un largo camino por recorrer.