DALL-E: a aplicação de Inteligência Artificial que cria imagens a partir de qualquer texto

8 Janeiro, 2021 /

João Gabriel Ribeiro

Misturando o nome do pintor surrealista espanhol, Salvador Dali, com o da personagem de ficção da Disney, Wall-E, chegamos a DALL-E, uma aplicação de inteligência artificial assim nomeada como forma de anunciar as suas funções. O DALL-E é uma aplicação de inteligência artificial que gera imagem a partir de qualquer trecho de texto, criado a partir do modelo GPT-3, mantido pela OpenAI.

O nome é sugestivo e deixa desde logo a perceber as referências que o compõe. Misturando o nome do pintor surrealista espanhol, Salvador Dali, com o da personagem de ficção da Disney, Wall-E, chegamos a DALL-E, uma aplicação de inteligência artificial assim nomeada como forma de anunciar as suas funções. O DALL-E é uma aplicação de inteligência artificial que gera imagem a partir de qualquer trecho de texto, criado a partir do modelo GPT-3, mantido pela OpenAI. Depois de se testar a aplicação na geração de texto, e de se corroborar a sua capacidade para criar conteúdo em diversas tipologias, da poesia a programação, com interessantes resultados, desta feita foi a vez de testar as capacidades de visualização do sistema testado a partir de uma base de dados de pares texto-imagem – isto é, de imagens com as respectivas legendas.

GPT-3, que significa Generative Pretrained Transformer 3 é um modelo de linguagem auto-regressivo, isto é, um modelo pré-programado que, dado um determinado conjunto de informações, consegue de forma autónoma executar uma série de processos de compreensão dessa informação, tais como detectar padrões ou resumir informações de modo a aproximar-se do output pré-definido. Isto significa, por exemplo, que para aprender a escrever poemas o GPT-3 só tem de ser alimentado com uma vasta série de poemas, ou que para gerar código a aplicação apenas precisa de conhecer genericamente o que é código, sendo capaz de discernir autonomamente entre as diferentes linguagens e as suas regras de organização.

O GPT marca um avanço no desenvolvimento de inteligência artificial precisamente por, de forma autónoma, executar diferentes operações, ao contrário de outros modelos de processamento de linguagem pré-programados apenas para a execução de um número limitado de tarefas. E é por isso que os seus desenvolvimentos e aplicações têm sido tão badalados, pela sua surpreendente capacidade de aprender, aperfeiçoada nas sucessivas gerações do modelo. O GPT é desenvolvido pela OpenAI e o acesso ao programa está para já condicionado a uma lista de espera. A versão pública, ainda beta, da API da aplicação permite para já coisas como pesquisa semântica (pesquisar por significados e não por expressões), a programação de assistentes virtuais ou até, simplesmente, melhorar o inglês de uma frase. Os exercícios que chegam à imprensa são sobretudo testes, muitos deles desenvolvidos pela equipa de criação.

O DALL-E, concretamente, é um monstro com 12 mil milhões de parâmetros capaz de gerar imagens com os mais diversos aspectos – fotografia, render, ilustração – a partir de uma simples linha de texto, e resulta do cruzamento de aprendizagens da utilização do GPT-3 (gerador de texto) e do Image GPT, cruzando a capacidade de perceber texto com a de gerar imagens. Durante o teste, a aplicação foi programada não só para gerar imagens a partir do texto mas para ter capacidade de alterar os atributos dessa imagem a pedido. E apesar do aparente sucesso expresso nas dezenas de imagens criadas, o teste serve sobretudo para perceber as falências do modelo de aprendizagem e aferir algumas das consequências que a sua aplicação em contextos sociais podia ter.

Nesta experiência os investigadores perceberam, por exemplo, a dificuldade natural da máquina para gerar determinadas formas em determinados contextos. Se, por exemplo, for pedido para desenhar “a pentagonal green clock. a green clock in the shape of a pentagon” (um relógio verde em forma de pentágono) a máquina gera resultados com alguma verosimilhança. Em missões mais complicadas, como quando pedido que desenhe um “cubo com textura de porco-espinho”, os resultados tornam visível a dificuldade da máquina. Isto pode ter diversas explicações, entre elas o facto de nos materiais analisados pela linguagem de programação não haver referências de qualquer tipo sobre o que é um cubo com textura de porco-espinho. Contudo, os investigadores determinaram que a repetição do pedido à máquina vai gerando resultados progressivamente mais ajustados, como se pode ver nas imagens em baixo.

*“a pentagonal green clock. a green clock in the shape of a pentagon”*

*“a cube made of porcupine. a cube with the texture of a porcupine.”*

Outros exercícios curiosos também testados incluem, por exemplo, a resposta da máquina a palavras ambíguas como glasses que em inglês pode significar copos ou óculos. Os investigadores perceberam que a aplicação é capaz de gerar várias cópias do mesmo objecto, mas que tem potencial para confundir qual dos objectos foi pedido. Uma dúvida normal se olharmos ao tipo de experiência.

*“a collection of glasses is sitting on a table”*

Para além destas experiências sobre a capacidade de modelação do GPT-3, a aplicação foi também testada noutros factores importantes, como a capacidade de distinguir referências a múltiplos objectos numa só frase – discernindo que se descreve mais do que uma criação -, de criar visualizações tendo em conta noções espaciais, ou até a sua capacidade para, dado um pedaço de uma imagem e a sua descrição, gerar a restante. Neste caso, mais do que gerar imagens com uma qualidade gráfica impressionante, interessava à equipa de investigação perceber a forma como o modelo de aprendizagem automática interpreta a informação e responde a determinadas ordens, aferindo, por assim dizer, aquilo que o modelo de facto sabe sobre o mundo. Nesse sentido, a equipa testou ainda a geração de imagens do interior de frutos ou organismos, referências compostas sobre objectos, como, por exemplo, um vitral com o desenho de uma amora, ou a frente de uma loja com o letreiro OPEN AI (como na imagem de destaque do artigo), cruzamentos de conceitos inesperados – como “um caracol feito de harpa” -, a capacidade da máquina de gerar outputs criativos como “um blusão de cabedal cor de laranja” – ou ainda de identificar as imagens de acordo com outras categorias como a geografia, como com o pedido “comida chinesa”.

São muitos os exemplos que respondem ao desafio auto-proposto pela equipa de aferir de forma exaustiva as capacidades deste modelo, e os resultados podem ser explorados em detalhe aqui. O DALL-E é uma aplicação complexa com capacidade para processar 1280 tokens – isto é, pedaços de informação, sendo que, por exemplo, uma letra é um token – 256 de texto e 1280 de imagem, conseguindo a partir desta estratificação da informação discernir uma mensagem. Este projecto representa assim mais um teste neste campo que tem sido amplamente explorado – o da geração de imagem a partir de texto. Recorde-se que em 2018 um artista criou um quadro recorrendo a um outro modelo de aprendizagem automática e de geração visual, o GAN (Generative Adversarial Network), desenvolvido por Ian Goodfellow, antigo investigador da Google agora ao serviço da Apple.

Autor:

8 Janeiro, 2021

João Gabriel Ribeiro

O João Gabriel Ribeiro é co-fundador e editor do Shifter. É auto-didacta obsessivo e procura as raízes de temas de interesse como design, tecnologia e novos media.

Outros artigos do autor

João Gabriel Ribeiro

O João Gabriel Ribeiro é co-fundador e editor do Shifter. É auto-didacta obsessivo e procura as raízes de temas de interesse como design, tecnologia e novos media.

Outros artigos do autor