Hace unos meses, si querías crear una imagen de algo, tenías que ser capaz de dibujar, pintar o usar una de las herramientas de Photoshop de las que otros hablan. Sin embargo, después de 2022, todo cambió, todo gracias a la IA, sí, como en "inteligencia artificial".

En lugar de tratar de dominar el mundo, las herramientas de inteligencia artificial con inclinaciones artísticas pueden convertir cualquier cosa que les describas en una imagen.

Acompáñenos a medida que ingresamos al mundo de la visualización de texto impulsada por IA y vea cómo puede usar tales herramientas para convertir sus pensamientos en imágenes reales simplemente escribiendo lo que tiene en mente.

Dall-E: el lado artístico del GPT-3 de OpenAI

Las primeras herramientas impulsadas por IA que se hicieron populares se basaron en GPT-3 de OpenAI. Una de las razones fue la apertura del proyecto al acceso externo, lo que llevó a algunas sugerencias de que GPT-3 es el futuro del trabajo creativo.

Hoy puedes usar las herramientas oficiales que puedes encontrar en

instagram viewer
Sitio beta de OpenAI o soluciones de terceros que aprovechan sus superpoderes lingüísticos. Por ejemplo, puede pedirle a GPT-3 que elabore un borrador para una publicación, responda preguntas simples o incluso revise o traduzca algún texto.

En 2022, OpenAI reveló que GPT-3 era igualmente bueno para crear imágenes. El proyecto DALL-E, una obra de teatro sobre la película WALL-E de Pixar y el nombre de Dali, utiliza GPT-3 no para trabajar con texto sino como un motor de creación de imágenes.

Al igual que con GPT-3 y el texto, DALL-E no es realmente un genio creativo que materializa imágenes de la nada. En cambio, ha sido "entrenado" en millones de imágenes que ya existen en línea. Sus poderes de IA radican en analizar esas imágenes, tomar elementos de ellas, modificarlas, transformarlas, ajustarlas y finalmente combinarlas en nuevas imágenes.

Al menos, esa es una versión simplificada de lo que sucede en segundo plano. A la mayoría de las personas solo les importará lo que ven frente a ellos, y ese es un cuadro de texto donde puede escribir algo y verlo convertido en una imagen después de unos minutos.

Imagen de Google Respuesta

Google es uno de los tres principales "jugadores" en la investigación de IA. Aún así, su progreso no es fácilmente perceptible, ni sus implementaciones en productos son tan accesibles como las ofertas de OpenAI.

Una de las primeras implementaciones ampliamente disponibles de Google AI fue en Google Docs y Gmail, en forma de autocompletado y sugerencias más inteligentes, conocido como Smart Compose. No profundizaremos en los detalles ya que hemos cubierto previamente Smart Compose (y cómo puedes usarlo).

Cuando esas funciones están activas, las aplicaciones web de Google comparan lo que escribe el usuario con lo que millones de personas escribieron en el pasado. Luego, sugiere lo que escribieron después.

Es una prueba de que a pesar de lo que nos gusta creer, no somos tan diferentes. Si 99 de cada 100 personas escriben "más tarde" después de "nos vemos", probablemente eso sea lo que seguiríamos escribiendo también.

Todos hemos usado alguna forma de autocompletar, incluso desde la época del sistema de texto predictivo T9 de la era del "teléfono tonto". Es por eso que las herramientas de inteligencia artificial de Google no parecían tan inteligentes como GPT-3 de OpenAI. No se sentían mucho más en uso que un mejor sistema T9 mejorado para el siglo XXI. Y por eso también la revelación de Imagen fue un poco impactante.

Como un DALL-E con esteroides, Imagen es una herramienta de visualización de texto. Según lo que está disponible hoy en día, Imagen puede producir imágenes "más limpias" y más vívidas al mismo tiempo que sabe cómo manejar funciones avanzadas como la difusión y la transparencia.

Desafortunadamente, en el momento de escribir este artículo, el acceso a Imagen sigue estando restringido, por lo que no pudimos probarlo.

DALL-E Mini y sus amigos: abierto para los negocios

No puedes acceder libremente a DALL-E e Imagen—todavía. Aún así, ya hay muchas alternativas disponibles si desea perder el tiempo con la generación de imágenes de texto impulsada por IA.

Teniendo en cuenta que esos son los primeros días y que los resultados o la experiencia de usuario que ofrecen pueden estar lejos de ser óptimos, aún vale la pena revisar algunos de los siguientes.

Haciendo Memes Con Dall-E Mini

Gracias a una combinación de resultados más que adecuados y una interfaz fácil de usar, pero lo que es más importante, su amplia disponibilidad, DALL-E mini se convirtió en uno de los visualizadores de texto de IA más populares.

Lejos de ser perfectos, a veces los resultados de DALL-E mini pueden ser más abstractos de lo previsto.

Otras veces puede fallar al crear lo que tenías en mente, pero puede acercarse bastante.

Después de su explosión de popularidad, los creadores de DALL-E mini lo trasladaron a un nuevo hogar con una nueva marca. Ahora puedes encontrar la última versión de DALL-E mini como creyón en su propio sitio.

Usar Craiyon hoy es tan fácil como buscar en línea una imagen existente. Puede visitar su sitio, escribir una descripción de su imagen en su campo de texto y presionar Enter. Después de un rato, verás los resultados en tu pantalla.

Lo sorprendente es lo buenos que son Craiyon y herramientas similares para imitar estilos visuales. Por ejemplo, le hemos pedido que evoque imágenes de un cachorro en una patineta:

Luego, usamos la frase exacta pero agregamos un "estilo Pixar" después. Después de un tiempo, Craiyon mostró una cuadrícula de imágenes más "caricaturescas", más cercanas a lo que percibimos como gráficos con trazado de rayos de Pixar en sus queridas películas.

Craiyon nos dio resultados aún mejores cuando reemplazamos "estilo Pixar" con "estilo anime" en el mismo aviso.

El anime tiene una apariencia más estilizada que las imágenes más realistas de Pixar, lo que parece haber ayudado a Craiyon a producir algunas imágenes casi listas para usar.

Jugando con la difusión latente

El modelo Latent Diffusion entrenado en el conjunto de datos LAION-400M es otro visualizador de texto de IA interesante. Sin embargo, también es más complicado en su uso. Debe ejecutarlo en línea en una máquina virtual y jugar con sus diversos parámetros en lugar de simplemente escribir en un campo de texto. Aún así, es más fácil de lo que parece.

  1. Visita el Espacio colaborativo de difusión latente de Google ese es actualmente su hogar.
  2. Desplácese un poco hacia abajo y observe el Inmediato campo bajo Parámetros. Reemplace el indicador predeterminado con lo que desea que represente su imagen.
  3. Elegir ejecutar todo desde el tiempo de ejecución menú, o presione CONTROL + F9.
  4. Si desea poder exportar las imágenes producidas directamente desde la herramienta, responda afirmativamente cuando se le pregunte si desea vincularlo con su cuenta de Google Drive. La herramienta tarda un tiempo en completar su configuración y necesita descargar algunos archivos durante el proceso.

aumentando los valores de Pasos, iteraciones, y Muestras_en_paralelo, puede conducir a resultados más detallados. Sin embargo, la herramienta es extremadamente exigente en recursos en los servidores de Google. Como resultado, puede bloquearse si aumenta demasiado esos valores, o el proceso de creación de una imagen en particular se vuelve más complicado de lo esperado.

Alternativas interesantes

Hemos pasado una cantidad significativa de tiempo probando DALL-E mini y Latent Diffusion. Nuestro método científico constaba de dos partes bien diferenciadas. Primero, tuvimos que idear conceptos que pudieran describirse con precisión como locos. Luego, pida a esos visualizadores de IA que los conviertan en imágenes. Más a menudo de lo esperado, tuvieron éxito, acercándose a la configuración general que habíamos imaginado.

También hemos probado algunas de las alternativas disponibles para este artículo. Todavía estamos esperando el acceso a otros. Algunos de los que vale la pena revisar son (sin ningún orden en particular):

  • a mitad de camino
  • Beta de MindsEye
  • estrellado
  • Sueño
  • Difusión disco

¿El arte generado por IA reemplazará a las artes visuales?

La abundancia y la popularidad cada vez mayor de las herramientas impulsadas por IA que generan imágenes llevan a muchos a concluir que las artes visuales morirán pronto. ¿Cuál es el punto de invertir el tiempo y la energía para aprender a dibujar o usar software complicado para visualizar cosas cuando una IA puede hacerlo más rápido (y pronto mejor) que tú?

Si te diste cuenta, todas esas herramientas están "entrenadas en conjuntos de datos". En lenguaje sencillo, esto significa que hacen lo que hacen gracias a que los humanos ya han hecho lo mismo antes.

Esa es la pista de por qué esas herramientas no pueden reemplazar el arte, la creatividad y el ingenio humanos. Son imitadores, replicadores inteligentes. Sin los originales producidos por humanos en los que están entrenados, no podrían producir ningún resultado.

Aún así, ese es el ahora, y admitimos que no sabemos lo que depara el futuro. Por ahora, los artistas visuales pueden dormir tranquilos. Sin embargo, al ritmo que evoluciona la IA, muchos especialistas en el tema están de acuerdo en que no se trata de si alguna vez reemplazará el trabajo de personas como la suya. Es sólo una cuestión de cuándo.

Pero bueno, no todo es pesimismo. Mientras Skynet se prepara para tomar nuestros trabajos, ¡al menos podemos mejorar nuestro estado de ánimo creando sin esfuerzo imágenes de cachorros en patinetas!