Where is my mind: notas sobre leitura mental e Inteligência Artificial

Where is my mind: notas sobre leitura mental e Inteligência Artificial

8 Maio, 2023 /
Ilustração de uma cabeça formada por diferentes correntes coloridas constituídas por milhares de pequenas bolhas.
DeepMind/Unsplash

Nos últimos seis meses, por duas vezes tivemos momentos em que os cabeçalhos das notícias anunciavam algo sobremaneira fascinante: a Inteligência Artificial tornou-se capaz de ler a mente humana. Muita tinta correu sobre ambos os casos; o primeiro publicado num servidor de preprints em Dezembro, e o segundo publicado na Nature Neuroscience em Maio. Os aspectos concretos de ambos são, de facto, fascinantes e fazem amplo uso de desenvolvimentos recentes no mundo da modelação predictiva (frequentemente chamada de “Inteligência Artificial”). Contudo, há uma distância entre os cabeçalhos e a realidade. Para a entendermos, vejamos aquilo que une ambos os estudos.

Um olhar dinâmico sobre o cérebro — o fMRI

Em ambos os casos, o objecto central do estudo é a imagem de ressonância magnética funcional (fMRI, do inglês). Estas imagens permitem observar o fluxo sanguíneo no cérebro de um indivíduo e como este vai mudando ao longo do tempo, e em diferentes circunstâncias. Em teoria, há um aumento do fluxo sanguíneo em zonas do cérebro que estão activas. Portanto, se um fMRI nos mostra um aumento desse fluxo numa determinada zona, é provável que essa zona seja activa. Para obtermos dados de fMRI de um indivíduo a uma dada altura, pedimos-lhe que passe alguns minutos, ou horas, num scanner de ressonância magnética, a resolver algumas tarefas como ler texto ou observar imagens de modo a entender que zonas do cérebro são ativadas em que circunstâncias. 

O que queremos e o que temos de fazer?

A hipótese de ambos os estudos também é semelhante e pode ser descrita com poucas palavras: se tivermos acesso ao fMRI de um indivíduo, podemos prever alguns aspectos do seu pensamento usando modelos preditivos?

Enquanto que o primeiro estudo, levado a cabo por investigadores da Universidade de Osaka, pretendia verificar se isto era possível com imagens, o segundo, da Universidade do Texas em Austin, pretendia fazê-lo com frases. Para isso, em ambos os estudos, foram usados modelos de modelação preditiva – Stable Diffusion (SF) para o primeiro estudo e GPT-1 para o segundo. Contudo, é importante notar que qualquer um destes modelos funciona com texto como input. Enquanto que o SF requer texto para gerar imagens que representam esse texto, o GPT-1 requer texto para “continuar a conversa”, por assim dizer. Em ambos os casos, os modelos convertem texto numa representação numérica complexa e é essa representação numérica que serve depois usada para prever imagens (no caso do SF) ou palavras (no caso do GPT-1).

Recapitulando, sabemos que aquilo que os investigadores têm não é texto, mas sim dados de fMRI; então, como resolver esta questão, tornando os dados aptos para o modelo? A solução — conceptualmente — é, mais uma vez, relativamente simples: pegamos nos dados de fMRI e treinamos um “descodificador”; um sistema que converta estes dados em representações numéricas. Para o fazer precisamos de mais dados. Concretamente pares de dados: dados de fMRI acompanhados da correspondente imagens (no caso do estudo com o SF) ou de texto (no caso do GPT-1). É nesse ponto que  introduz aquilo que é, talvez, o grande problema do estudo: recolher estes dados demora tempo. Demora muito tempo e custa dinheiro. 

Para treinar o modelo de SF (que gera imagens), os investigadores responsáveis por este estudo usaram 4 indivíduos do Natural Scenes Dataset. Este conjunto de dados contém, para 8 indivíduos, dados de fMRI que correspondem à visualização (repetida 3 vezes) de 10,000 imagens. Falamos portanto dos dados de fMRI para 30,000 imagens recolhidas ao longo de, aproximadamente, 40 horas. Este conjunto de dados tem outro problema: foi recolhido com máquinas relativamente caras e poderosas de MRI. Para se perceber a ordem de grandeza destes valores, estima-se que existam menos de 100 no mundo inteiro, algo explicado pelos elevados custos económicos associados a estas máquinas.

A obtenção de dados para o modelo GPT-1 foi, talvez, um pouco mais divertida e barata. Neste caso, 7 indivíduos ouviram pelo menos 82 histórias (durante entre 6 e 21 horas) e 4 filmes curtos (durante entre 16 e 24 minutos). Com a recolha de dados adicionais que permitem uma interpretação correcta dos dados de fMRI, falamos de um total de entre 8 e 23 horas por indivíduo. A máquina neste estudo é ligeiramente mais barata do que aquela usada no primeiro, com custos entre os 1,6 e 2,2 milhões de dólares.

Os resultados e os problemas do fMRI (e do clickbait)

Tendo obtido estes dados, os investigadores de ambos os estudos puderam treinar os seus modelos e finalmente verificar a sua hipótese: usando estes descodificadores, em conjunto com estes dados, é possível prever alguns aspectos do pensamento deste indivíduo? A resposta curta é: mais ou menos. 

No primeiro estudo, os investigadores usaram o descodificador que treinaram e, para cada par de dados fMRI e imagem, geraram 5 imagens alternativas a partir dos dados de fMRI, selecionando a melhor para o teste final. Com isto, conseguiram mostrar que a imagem gerada era semelhante àquela que foi observada em aproximadamente 80% dos casos. Contudo, entre “um algoritmo consegue reconstruir, com alguma fidelidade, imagens a partir de dados fMRI” e “a Inteligência Artificial consegue ler a nossa mente” vai uma distância considerável; mas antes de aprofundarmos isto falemos do segundo estudo.

No estudo que se debruçava sobre a previsão de texto, os investigadores conseguiram demonstrar que é possível prever, a partir de dados de fMRI, texto que os participantes ouvem naquele momento. Além disso, também mostraram que, em metade dos casos, foi possível prever uma história que os indivíduos tinham ouvido previamente. Contudo, a descodificação nestes testes não foi tão acertada como naqueles em que se comparava o discurso ouvido com aquele gerado a partir dos dados de fMRI. Por outras palavras, o mecanismo neuronal que recapitula histórias verbalmente está, em parte, associado ao mecanismo que as interpreta. Também estes resultados são fascinantes, mas continua a ser difícil entender os cabeçalhos que anunciam uma Inteligência Artificial capaz de ler mentes.

Em ambos os casos temos o hype — “a Inteligência Artificial sabe o que nós pensamos!” — e a realidade, bastante mais aborrecida — é possível prever, a partir de um conjunto significativo de dados, imagens que as pessoas estão a ver ou texto que acabam de ouvir ou que recordam. E existe uma necessidade explícita de dados que estes cabeçalhos tendem a ignorar, criando um cenário fantástico que não condiz com a realidade. Em ambos os estudos, os investigadores testaram descodificadores treinados num indivíduo noutros indivíduos, e em ambos os estudos esses decodificadores falharam. É um facto conhecido do fMRI que há uma elevada variabilidade entre indivíduos e, como referimos, estamos a falar de máquinas extremamente caras e volumosas – isto torna a aplicação destas tecnologias muito mais complicada do que o hype quer dar a parecer.

Isto leva-me a uma consideração final sobre estes estudos e a reportagem que os rodeia. Porque é que os cabeçalhos não abrem novas possibilidades a pessoas que não conseguem falar? Porque é que vemos tantas “Inteligências Artificiais a ler pensamentos” e tão poucas “modelos podem ajudar a restaurar a fala a alguns indivíduos”, particularmente quando nenhum dos estudos fala em ler mentes? As possibilidades certamente são as mesmas. E teremos tanto a aprender sobre a experiência humana com pessoas que nunca conseguiram falar, que nunca conseguiram pintar e conseguem agora imaginar cenários. Nomeadamente sobre o que é a inteligência. Ultimamente: porque é que nos falam em Inteligências Artificiais como se elas fossem capazes por si próprias quando são ferramentas criadas pela humanidade? E, em último caso, um pequeno reflexo desta? 

A minha mente e a “nossa” mente

Como uma última tarefa, temos de considerar aquilo que estes modelos — SF e GPT-1 — representam. Sendo produtos dos dados usados para os treinar, muitas vezes ecoam vieses humanos e reforçam discriminações. Por exemplo: foi recentemente mostrado que modelos como o SF são significativamente mais representativos do homem branco do que de outros grupos de pessoas, levando a que a geração de imagens a partir deste modelo seja ela própria enviesada. Para além disso, os dados usados para treinar o modelo SF contêm, a uma escala considerável, representações de pornografia, violência sexual e estereótipos discriminatórios. Também os modelos baseados no GPT, melhor estudados, não são isentos – vários estudos demonstraram, vezes e vezes sem conta, que os vieses que os populam teimam em não deixar de existir. Isto é o que se passa até com modelos como o ChatGPT, o chatbot baseado em modelos GPT da OpenAI, que é silenciosamente atualizado regularmente para corrigir vieses. Os dados usados para treinar modelos SF e GPT são representativos da humanidade que se digitalizou e, quer queiramos quer não, essa humanidade tem sido e é centrada no homem branco; estes modelos são meras máquinas que reforçam a realidade a partir dessa representação. 

O que estes estudos acabam por fazer, até certo ponto, é substituir as representações da mente humana por um modelo descodificador centrado no homem branco e muitas vezes carregados de vieses e violência. Para motivos de demonstração académica podemos, talvez com relutância, contentar-nos com isto porque estamos num ambiente controlado (sem desconsiderarmos que este tipo de investigações é altamente centrado em países ricos e focada, frequentemente, em pessoas brancas, eliminando à partida a possibilidade de deteção de casos de discriminação implícita por parte dos modelos desenvolvidos). Quando o jornalismo retrata estes modelos como modelos que lêem mentes, está, implicitamente, a despersonalizar a mente humana, substituindo-a por uma distribuição que reforça, em muitos momentos, a nossa própria desumanidade. É esta a base da suposta “mente” que queremos ler?

Autor:
8 Maio, 2023

José é uma pessoa que faz investigação em deep learning e imagem clínica. Vive com uma interesse mais ou menos flutuante em compreender o mundo - como ele é e como pode vir a ser. Faz produção nas horas vagas como Z G A.

Ver todos os artigos
Partilha este artigo:
Recebe os conteúdos do Shifter, semanalmente no teu e-mail.

Apoia o jornalismo e a reflexão a partir de 2€ e ajuda-nos a manter livres de publicidade e paywall.