Uma investigação levada a cabo pela associação AlgorithmWatch em cooperação com a European Data Journalism Network pediu a 26 voluntários para instalar uma extensão nos seus browsers de modo a monitorizar o conteúdo que durante o período de testes lhe era servido. A conclusão desta investigação é que na maioria dos casos o algoritmo do Instagram tende a beneficiar, aparentemente mais do que numa distribuição dita normal, fotografias de mulheres de bikini ou homens sem camisola. A empresa responsável pelo algoritmo, Facebook Inc, rejeita esta conclusão, apontando outros factores que não propriamente a roupa utilizada por cada modelo, mas vamos aos factos.
Para analisar o algoritmo do Instagram o grupo de trabalho selecionou 26 voluntários e 37 profissionais (14 homens e 23 mulheres), de 12 países diferentes e com experiência na utilização de Instagram para publicitar marcas, arranjar clientes ou dinamizar negócios, na área da comida, viagens, fitness, moda ou beleza, que passaram a ser seguidos pelos voluntários. Nos seus equipamento foi instalada a extensão que, automática e pontualmente, abria uma sessão de Instagram e registava as primeiras fotos que surgiam no newsfeed de cada conta. Assim os investigadores procuraram medir a influência do algoritmo nas recomendações feitas a cada utilizador.
A ideia base para esta assunção é a de que se o Instagram não influenciasse os feeds então a diversidade do que surgia no seu topo seria representativa das contas que a pessoa sobe, já em sentido inverso, a deteção de um padrão de probabilidades recorrente indicaria a influência deste. No total foram analisados 1737 posts, contendo um total de 2400 fotografias, publicadas pelos profissionais selecionados para o teste. Destes, apenas 21% dos posts publicados foram identificados por sistema computacionais como contendo nudez parcial, contudo, nos feeds dos voluntários estas fotografias representaram um total de 30% do conteúdo mostrado, dentro do universo de contas previsto. Foi este desvio entre a proporção de publicação e a proporção de exibição que serviu de rampa do grupo de trabalho para a conclusão.
Em resposta, o Facebook fez duras críticas à forma como o estudo foi desenhando, dizendo que este revelava a ignorância dos investigadores sobre a forma como o Instagram realmente funciona. Ainda assim, o grupo de trabalho que reconhece a pequena dimensão da sua amostra reitera e reafirma as suas descobertas, deixando a porta aberta para um prolongamento do estudo e convidando quem se quiser juntar a fazer o download da extensão.
Para os investigadores, uma questão fundamental prende-se com a arbitrariedade do conceito “o que o utilizador quer” que, na patente da empresa, vem descrito como “aquilo que a plataforma acha que os utilizadores querem”. Neste sentido, a AlgorithmWatch acredita que o que é mostrado aos utilizadores se sujeita a este sensível equilíbrio entre o que a plataforma interpreta como sendo os interesses do utilizador e aquilo que, nativamente considera ser mais benéfico para manter os utilizadores ligados à plataforma.
Na continuação do artigo e na tentativa de perceber o motivo por detrás deste viés estar implícito no algoritmo da rede social, a publicação explica ainda como funcionam os sistemas de moderação controlados por computadores. Para que possam operar de modo automático, os softwares de moderação são treinados com grandes quantidades de informação, neste caso de imagens, anotadas manualmente por humanos que as categorizam de uma forma perceptível para as máquinas. Assim, os algoritmos acabam por aprender aquilo que os humanos, geralmente trabalhadores mal pagos, identificam nas fotografias que analisam, muitas vezes à pressa. É nesta dissonância que pode residir portanto a indução de um viés no algoritmo.
De resto, a existência deste tipo de falhas e contingências em software, associados aos padrões ou à insuficiência da informação de treino são tremendamente conhecidos por quem se interessa pelas diversas formas da inteligência artificial. No relatório apresenta-se o paradigmático exemplo do software que aprendeu a distinguir entre cães e lobos, não pelas características que um humano detectaria, mas pela diferença dos fundos em que estes animais habitualmente se encontra, associando os fundos de neve à etiqueta lobo.
O estudo, no geral, reconhece as suas falências mas, de certa forma, faz delas um dos seus principais pontos. É que se, de facto, os investigadores não sabem ao certo como o algoritmo do Instagram funciona isso deve-se ao facto de a empresa ser pouco clara quanto a isso e nunca se ter sujeito a nenhuma auditoria. Assim, qualquer investigação que se pretenda debruçar sobre o assunto só pode cingir-se ao campo da inferência, testando dentro das condições existentes, longe de serem ideais.
Numa nota final mais política, reitera-se o possível viés do algoritmo que, seguindo o padrão tradicional das tech, costuma ser mais prejudicial para mulheres ou pessoas de diferentes etnias. De resto, a investigação não se fica pela análise do algoritmo, apontando críticas à estrutura de inovação da própria empresa. Em 238 propostas de patentes mencionando a expressão “visão computacional”, foram mencionados 340 inventores, apenas 27 dos quais do sexo feminino.
Mais informa o estudo que a partir de 12 de Julho deste ano entra em vigor a EU Platform to Business (P2B) Regulation, uma legislação complementar ao RGPD e que, em teoria, fará com que as plataformas tenham de partilhar os principais critérios dos seus algoritmos. Contudo, apesar da existência deste enquadramento legal e de uma obrigação de explicação sobre as decisões, desde 2018 ao abrigo do RGPD, o grupo informa que não existem uma forma clara e inequívoca, a nível europeu, de um utilizador entrar em litígio com a plataforma. Em causa está, por exemplo, a inoperância do Regulador Irlandês que deveria impôr as normas europeias ao Facebook mas que, segundo a associação, ainda não compreendeu bem o regulamento em questão.