Se o ano começou com o entusiasmo em torno do ChatGPT e, por consequência, do modelo que lhe estava subjacente, o GPT-3 – de que falámos aqui –, no horizonte de todas as profecias que se iam traçando sobre a Inteligência Artificial estava já a sua próxima versão. À data sabia-se apenas que o GPT-4 seria maior do que o seu antecessor, e o racional de que esse aumento lhe daria novas capacidades ainda mais impressionantes, traduzido numa imagem que se foi viralizando dezenas de vezes, alimentava a especulação sobre o que poderia mudar com a evolução que agora se concretizou. No dia 15 de Março de 2023, deu entrada no repositório de acesso aberto arXiv, o relatório de desenvolvimento do GPT-4. E se a conversa sobre as mudanças que pode provocar na sociedade, que empregos podem vir a ser substituídos, carece de rigor como qualquer outra especulação, outras mudanças concretas merecem ser assinaladas.
Como vimos anteriormente, o lançamento dos modelos pela OpenAI tem sido, mais do que a demonstração de capacidades científicas e desenvolvimentos tecnológicos, um misto de tudo isso com uma grande campanha de relações públicas e marketing, cujos contornos são cada vez mais claros. Se à data da publicação do artigo sobre o ChatGPT a relação entre a Microsoft e a OpenAI já era assinalável, dias depois foi reforçada com o anúncio de uma extensão da parceria. Este prolongamento, descrito no site da OpenAI como possibilitadora da continuação da “investigação e desenvolvimento independente de Inteligência Artificial que seja cada vez mais segura, útil e poderosa”, pode ser visto como um dos motores da corrida à I.A. a que estamos a assistir. E ler nas suas entrelinhas mostra-nos em que direcção se concentram os maiores esforços – algures entre as palavras que destacam a segurança e os benefícios para toda a humanidade –, e os actos.
Open what?
Para além dos resultados em termos de performance, que abordaremos mais à frente, o lançamento do GPT-4 trouxe consigo uma novidade. Pela primeira vez, alegando “o panorama competitivo e as implicações de segurança de grandes modelos de linguagem”, o artigo relatando o novo lançamento da OpenAI não aborda em detalhe a arquitectura do modelo, o hardware envolvido, as fórmulas de treino, os métodos usados, ou os dados de treino. Isto significa que, do ponto de vista científico, é difícil comprovar as alegações que vão sendo feitas. Numa reportagem feita pela norte-americana Vice, vários investigadores da área revelaram as suas preocupações com esta mudança – que, para a linguista Emily Bender, não foi surpresa. Prithviraj Ammanabrolu, do Allen Institute for Artificial Intelligence, foi bastante peremptório na sua partilha no Twitter, afirmando que o GPT-4 não será ciência mas um produto. E várias questões se levantam neste domínio.
Se a única certeza que temos sobre os grandes modelos de linguagem é que têm um potencial transformador da sociedade, muitos investigadores questionam se é responsável que os avanços da investigação se traduzam em produtos antes de os seus riscos serem completamente estudados e mitigados. Na mesma toada, alertam para o facto de que, sem acesso às características técnicas do modelo e aos dados em que foi treinado, é impossível fazer uma investigação independente aos seus limites, vieses, bem como à veracidade da perfomance reportada, a validade dos dados ou aos custos energéticos e humanos de todo o processo. Tudo resume na frase de Thomas Wolf, da Hugging Face, à MIT Technology Review: “A OpenAI é agora uma empresa totalmente fechada com comunicação científica semelhantes a comunicados de imprensa sobre produtos.” E se este fechamento vai contra a filosofia inicial com que a empresa se anunciou, a forma como é comunicado parece servir-se da ciência – ou da aparência científica – como uma de argumento de autoridade. Neste particular, importa frisar que o arXiv é uma plataforma de publicação de acesso aberto e que o que lá é publicado não é sujeito a uma revisão por pares, processo típico do processo científico. E que a estratégia de publicação da OpenAI não ficou por aqui. (Já agora, sobre publicação científica, o José de Almeida escreveu aqui.)
Poucos dias depois da publicação do relatório de lançamento do GPT-4, nesse mesmo repositório foi publicado “GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”. Neste artigo – mais uma vez de aparência científica mas que não foi publicado segundo o método científico –, quatro investigadores, três deles com ligação à OpenAI, e o quarto da Universidade da Pennsylvania, estimaram os empregos que poderiam ser substituídos ou parcialmente automatizados pela tecnologia, calculando a sua exposição a automatismos (isto é, até que ponto as tarefas eram susceptíveis de ser desempenhadas pelo GPT ou com o auxílio deste). O resultado dessa estimativa tem sido usado para credibilizar determinadas narrativas e também sido alvo de debates, sem que tenha por detrás uma revisão por pares. A disposição dos factos é opaca mas nem isso esfria a assertividade das conclusões que resultam desta espécie de monopólio informativo sobre um modelo de IA de última geração. Se nos modelos anteriores o código não era aberto, agora nem as especificações técnicas o são.
As 99 páginas do artigo de lançamento do GPT-4 dividem-se, sensivelmente, em três grandes componentes. A primeira, dando conta da evolução das capacidades do GPT-4 e da sua recente multi-modalidade, que lhe permite analisar imagens. A segunda, dedicada às limitações e riscos do modelo; e uma terceira, sobre as metodologias de mitigação destes riscos. Comecemos pelo início. De um modo mais ou menos expectável, o GPT-4 resolveu com distinção uma quantidade de provas de admissão, exames académicos, problemas de código, revelando uma taxa de acerto superior ao GPT-3.5, o e que justificou, por todo o lado, a afirmação da sua melhoria. Contudo, se esta afirmação parece uma intuição simples perante os factos apurados, tem os seus problemas.
Numa publicação no seu Substack, Arvind Narayanan, autor de AI: Oil Snake, mostra um exemplo. Arvind testou o GPT-4 com desafios de código provenientes do site Codeforces, e percebeu que a I.A. respondia com uma taxa de acerto extraordinária a problemas criadores antes da sua data de treino – 10 em 10. Posteriormente, testou o mesmo modelo com problemas mais recentes do mesmo nível de dificuldade, e as diferenças não podiam ser mais óbvias: dos 10 desafios, o GPT-4 errou todos. Perante estes resultados, Narayanan, que é também investigador de Ciências da Computação, explicou no seu texto porque os testes de performance desta natureza são altamente falíveis para aferir a inteligência destes sistemas. As razões são essencialmente duas, e fornecem-nos pistas úteis para entendermos os problemas dos grandes modelos de linguagem.
A primeira tem a ver com a possibilidade de contaminação – isto é, com a possibilidade de os dados dos testes (como as perguntas ou respostas) estarem na base de dados de treino e os resultados estarem por assim dizer memorizados no modelo. E se no próprio artigo da OpenAI é referida a estratégia de mitigação deste fenómeno – amplamente conhecido entre os desenvolvedores de I.A. –, os métodos apresentados, a comparação aleatória entre sequências das duas bases de dados (de treino e de testes), não convencem o investigador. Para Narayanan, sem dados é difícil afirmar com certezas mais do que especular, mas as evidências apontam para a fragilidade dos testes quantitativo, “neste ponto, precisamos de testes qualitativos, mais do que quantitativos, porque estas ferramentas são tão novas que nem sabemos quais as quantidades certas a medir”. Esta insistência é a sua segunda razão. Este tipo de teste pode criar uma ilusão, criando a imagem de maiores capacidades da máquina. Dando o exemplo do código, o cientista explica que, não é fazer uma grande percentagem de código de forma genérico que torna alguém num bom programador, porque grande parte desse código vem de templates e bibliotecas abertas, mas sim a capacidade de o adaptar a especificidades concretas – algo que os testes quantitativos não medem.
Quanto aos limites, riscos e motivações, o artigo da OpenAI merece uma abordagem com o mesmo cepticismo saudável e uma especial atenção aos detalhes. As notas sobre o perigo dos modelos desta natureza repetem-se várias vezes, com o elencar de configurações em que um grande modelo de linguagem pode servir de base a esquemas fraudulentos, por exemplo, de criação de notícias falsas em barda, mas a forma de lidar com elas soa ambígua à leitura. O modelo foi afinado, tal como o anterior, com um treino específico feito por humanos que categorizaram as respostas de acordo com a sua validade e adequação aos valores da empresa, bem como assessorado por um conjunto de 50 especialistas de diversas áreas que procuraram responder a todos os usos adversos do modelo; ainda assim sobra a dúvida se perante uma tecnologia com este grau de novidade e estas capacidades, terá sido suficiente. E para este raciocínio contribuem duas premissas.
A primeira dessas premissas, que nunca é demais repetir, tem a ver com a forma como os dados de treino são colectados e seleccionados, não é um defeito é parte do feitio destes modelos. As massivas quantidades de dados usados para treinar estes modelos são recolhidos em larguíssima escala, tornando impossível uma auditoria humana que perceba com exactidão que tipo de problemas, estereótipos ou informações perigosas contém. Deste modo, só a interacção com o modelo, através de um diálogo, permite a sua aferição e análise – e assim chegamos à segunda premissa, sobre a forma como isto é feito.
Como mostraram as notícias sobre o GPT-3.5, muito do treino feito por reforço humano (RLHF) pode ter sido feito com recurso a mão de obra barata, num processo de terceirização do trabalho que pode afectar a sua qualidade. Por outro, a equipa de especialistas contratada para fazer parte da chamada ‘red team’ – os responsáveis pela segurança do modelo – era composta por apenas 50 pessoas com backgrounds semelhantes entre si, o que pode fazer com que as suas preocupações sejam similares mas não representativas. “É possível que a nossa abordagem ao recrutamento de investigadores privilegie riscos que estão na cabeça das comunidades académicas e das empresas de I.A”, lê-se no próprio documento, numa espécie de assunção da falibilidade do modelo que nem por isso travou o seu desenvolvimento, que se repete noutras instâncias.
“Demonstramos que embora as nossas mitigações e processos alterem o comportamento do GPT-4 e previnam certos tipos de maus usos, estes são limitados e permanencem frágeis em alguns casos. Isto aponta para a necessidade de planeamento antecipado e governança”, lê-se na introdução do último capítulo do artigo, especialmente dedicado aos riscos e limitações, que só por si dariam um ensaio de ainda maior extensão.
Democratização vs comercialização
Apesar dos riscos serem sobejamente referidos, o que revela o seu reconhecimento, todo o fluxo do artigo mantém uma toada optimista em relação ao futuro dos grandes modelos de linguagem, e sobretudo, no que toca à generalização da inteligência através destes modelos. Numa das notas de rodapé, pode ler-se o compromisso da OpenAI em assistir outros modelos de I.A. caso estes se aproximem mais da chamada Inteligência Artificial Geral – mas se essa ideia da criação de uma inteligência ‘geral’ é por enquanto de carácter ficcional, é importante que não nos distraia do potencial de mudança que esta inteligência traz para a sociedade. Numa jogada que demonstra a aproximação (quase fusão) entre OpenAI e Microsoft, a empresa responsável pelo Windows, Office, Outlook, Bing ou Edge, anunciou que a inclusão de uma funcionalidade nos seus programas com recurso ao GPT-4.
Assim, e embora as reservas sobre os potenciais usos ainda estejam em discussão – por exemplo, a legislação europeia sobre a Inteligência Artificial ainda está a ser debatida –, os grandes modelos de linguagem ficam à disposição de quem os quiser utilizar, valendo-se da posição favorável da Microsoft para se colocarem directamente à disposição do utilizador nos softwares que habitualmente usa para produção. Se sabemos que todas as ferramentas têm o potencial de modelar os resultados que com elas obtemos, esta, com a capacidade de gerar texto, tabelas, código, com bastante plausibilidade mas correção e factualidade duvidosa e a possibilidade imanente de alucinar (gerar resultados completamente despropositados), tem um potencial difícil de aferir em detalhe mas com implicações genéricas evidentes.
Como Allison Adams referiu no seu Artificial Knowing, a definição da inteligência com que são programados estes sistemas e modelos está intimamente ligada com a definição das equipas, instituições e empresas que os desenvolvem. E se na sua crítica o foco é a questão do género e a definição masculina do que é inteligência, o racíocinio alarga-se ainda mais com a preponderância disseminação que estes modelos atingem. Não só a definição de inteligência influencia a forma como os modelos são concebidos e a forma como são testados – pensemos na questão do capítulo anterior – como consubstancia visões do mundo e o papel que estas inteligências podem ter nesse mundo. No caso concreto, os modelos da OpenAI e toda a envolvente indiciam uma visão da inteligência associada aos ditâmes lucrativos do capitalismo de vigilância (a CEO do Signal, Meredith Whittaker, chama-lhes Derivadas da Vigilância). Não será coincidência a quantidade de posts virais que todos vimos do estilo ‘usei o GPT-4 para ganhar xxx dólares’. Esta é a síntese de uma visão em que o conteúdo – seja imagem ou texto – é visto pelo seu valor de mercado, pela sua possibilidade de gerar receitas de uma forma mais eficiente, mais rápida, mais produtiva e não por outro qualquer critério de inteligência com maior relevância ecológica e ou social. E em que a democratização da tecnologia passa mais pela sua comercialização do que por uma partilha do poder sobre as ferramentas. Uma dimensão especialmente interessante tendo em conta o futuro desta tecnologia e a nossa tendência para acreditar nos resultados de automatizações.
Como já vimos no artigo sobre o ChatGPT, a OpenAI, agora com a companhia da Microsoft, está na frente da corrida da Inteligência Artificial mas não está sozinha e, enquanto avança em direção à rentabilidade dos seus investimentos, outros seguem em direcções divergentes, como os que procuram criar alternativas de fonte aberta a estes modelos.
Embora esta ideia da fonte aberta possa parecer um pormenor que só interessa a geeks, numa inovação desta natureza a sua importância é redobrada. Primeiro, porque permite aos demais investigadores da área comprovar as alegações feitas, estudar riscos e prever consequências que, de outro modo, como vimos, dificilmente ganham uma validade científica, dada a impossibilidade de replicar os testes feitos. E, segundo, porque estamos neste momento a projectar as relações que dominarão a tecnologia no futuro. Num momento muito análogo ao dos primeiros passos das redes sociais estamos a saltar para o barco de uma tecnologia cujos resultados ainda pouco percebemos e cujos objetivos são determinados por poucos. Será que ganharemos consciência enquanto ainda resistem algumas alternativas?
Actualmente, a criação e desenvolvimento de tecnologia de I.A. em ambiente open-source tem sido uma prática relativamente comum, mesmo entre grandes empresas, mas para Ilya Sutskever, um dos responsáveis da OpenAI, a decisão de não libertar os detalhes funda-se na mesma visão do futuro da I.A. Para si, a estratégia de publicar de modo aberto I.A. não é sensata dada a possibilidade de esta se tornar extraordinariamente potente. Será mais sensato tornar a tecnologia numa mercadoria e expedi-la para milhões de computadores por todo o mundo a troco do pagamento de licenças comerciais — especialmente quando se afirma que um dos principais riscos da tecnologia é a sua capacidade de enganar quem a utiliza, mascarando resultados incorrectos com uma formulação e plausibilidade insuspeitas?