La IA puede engañarnos para que confundamos el arte generado con fotos reales. Entonces, ¿por qué las manos son un desafío tan grande?
Los generadores de IA evolucionan ante nuestros ojos a un ritmo aterrador, pero aún tienen fallas. Detectar detalles extraños en imágenes de IA es bastante divertido. Es por eso que las manos Midjourney se convirtieron en un tema candente, un problema común en muchos motores.
Analicemos por qué las manos desafían tanto a los generadores de imágenes de IA. Sus programadores ya están solucionando este problema digno de un meme, pero es interesante pensar en cómo aprende la inteligencia artificial, sin mencionar lo que se interpone en su camino.
Por qué las manos generadas por IA causaron revuelo
Cualquiera que use motores de inteligencia artificial para crear imágenes puede haber notado que las manos rara vez salen bien, pero el problema llamó la atención cuando aparecieron un montón de "fotos" en Twitter.
En una inspección más cercana, las extrañas manos de las personas los delataron como imágenes generadas por IA. El hecho de que este fuera el intento de manos de Midjourney hizo que la situación fuera más interesante.
Uno de los mejores motores de inteligencia artificial que existen no pudo abordar la complejidad de las manos humanas, por lo que se pusieron a prueba las capacidades de Midjourney y sus competidores. Es cierto que incluso DALL-E es propenso a tener dedos y uñas poco realistas.
La exageración fue desproporcionada, teniendo en cuenta que las manos generadas por IA siempre han sido un problema, pero la atención adicional provocó el lanzamiento de Midjourney v5 para mejorar en v4.
La nueva versión se centró en mejorar el diseño de la mano, una clara indicación de que los ingenieros de IA prestaron atención al hilarante revuelo y decidieron actualizar las capacidades del software.
Otras locomotoras tardan en seguir el ejemplo de Midjourney, por lo que arreglando el arte de la IA con Photoshop sigue siendo una habilidad invaluable. El principal obstáculo para los programadores es lo complicado que es entrenar la inteligencia artificial para dibujar manos convincentes.
¿Por qué los generadores de imágenes de IA tienen problemas con las manos?
Los motores de IA utilizan redes antagónicas generativas (GAN) o difusión estable para producir imágenes. Ambas tecnologías requieren una gran cantidad de materiales de origen, capacitación y poder de procesamiento para crear incluso las obras de arte más básicas.
Dado que las imágenes preexistentes son fundamentales para el entrenamiento de una IA, los programadores deben alimentar su software con miles, si no millones, de imágenes. junto con indicaciones, repitiendo el proceso una y otra vez hasta que el motor comprenda a qué se refiere una palabra en particular y cómo representarla objeto.
Pero las imágenes de origen de las que aprende una IA son principalmente 2D, donde las manos se representan en una variedad de posiciones. Ya sea recto o rizado, mostrando cinco o tres dedos.
Al final del día, una máquina en realidad no entiende el concepto de manos, y las imágenes de las que aprende no siempre muestran manos de manera clara o consistente. Es por eso que las manos de Midjourney pueden ser tan feas: confusión de IA.
Tan válido como Las preocupaciones de Elon Musk sobre el desarrollo de la IA Puede ser, algunas partes de la tecnología todavía tienen mucho que aprender. Y sus obstáculos van más allá de ejemplos insuficientes de manos.
Otras razones por las que los generadores de imágenes de IA tardan en mejorar
Mirando a Modelos de mitad de camino, v5 ofrece una coherencia avanzada entre las indicaciones de texto y las imágenes producidas, así como una resolución más alta y herramientas adicionales. Pero tales logros no son baratos.
Entrenar a una IA para hacerlo mejor con las manos requiere alimentarla con mejores imágenes, especialmente en 3D. Eso significa que se dedica mucho tiempo y mano de obra a los procesos, desde la adquisición de materiales de origen hasta la mejora de la codificación y la repetición de la capacitación hasta que la IA lo hace bien.
Incluso entonces, el software puede cometer errores en impresionantes obras de arte. Además de ser un trabajo enorme y complejo, es costoso. Entonces, no esperes Generadores gratuitos de texto a imagen con IA para subir al calibre de Midjourney por el momento.
En pocas palabras, el problema con los motores de IA no se trata solo de la incapacidad de estos programas informáticos para comprender completamente cómo se ven o funcionan las características humanas, como las manos y los pies. También se reduce a lo que cuesta y al acceso de la tecnología a imágenes 3D y técnicas de aprendizaje automático que pueden ayudar a los generadores a obtener una comprensión más realista del mundo que los rodea.
Los generadores de imágenes de IA no lucharán para siempre
Las manos son un concepto complicado para que la inteligencia artificial entienda su cabeza binaria, pero las soluciones al problema ya están funcionando. Midjourney, DALL-E 2 y otras plataformas eventualmente podrán mantener los dedos peculiares al mínimo, si no erradicarlos por completo.
Los avances en otros campos de la IA garantizan que la tecnología evolucione constantemente y que sus desarrolladores siempre aprendan nuevas formas de aplicarla y mejorarla.