A importância dos arquivos digitais na preservação da memória do mundo de hoje e de outros tempos

A importância dos arquivos digitais na preservação da memória do mundo de hoje e de outros tempos

31 Maio, 2021 /

Índice do Artigo:

Este artigo foi publicado na 2ª edição da Revista do Shifter, dedicada à origem do Conhecimento e da chamada Era da Informação.

[infobox]

Este artigo foi publicado na 2ª edição da Revista do Shifter, dedicada à origem do Conhecimento e da chamada Era da Informação. Podes comprá-la, na sua versão PDF, aqui.

[/infobox]

Quando as chamas engoliram os armazéns da editora discográfica Universal, em 2008, mais de meio milhão de gravações originais ficaram perdidas para sempre. O fogo devorou a música durante mais de 24 horas, levando consigo uma parte significativa da sua história – do século XX até à contemporaneidade. A tragédia foi quantificada em cerca de 150 milhões de dólares, mas a perda deste acervo teve um impacto muito mais profundo. Muitas das gravações eram artefactos únicos, sendo a peça-base para a replicação dessa música em qualquer formato. O caso da Universal é um entre tantos outros: do incêndio no Museu Nacional do Rio de Janeiro que extinguiu parte da memória de quase 200 anos da história do Brasil em 2018, à destruição da Biblioteca da Alexandria na Antiguidade Clássica.

A obra de milhares de anos reduzida a cinzas aponta para uma das lições fundamentais da preservação: a importância da redundância em nome da conservação da memória. Um repositório centralizado é naturalmente mais vulnerável e, por isso, a promessa da digitalização enquanto ferramenta para arquivamento destaca-se pela possibilidade de cópias infinitas. No entanto, seja por questões ligadas à crescente tirania das regulações de direito de autor, seja pelo fomento do consumo cultural focado no imediatismo e alicerçado em formatos proprietários e obsolescências programadas, para Abigail de Kosnik é claro: “o capitalismo tende a funcionar contra a preservação digital”, e a promessa continua por cumprir.

A diretora do Centro de Investigação de Novos Media de Berkeley recuperou, recentemente, a ideia de que os piratas digitais têm um papel fundamental na preservação da memória digital, em resposta a um cenário distópico em que a fragilidade da nossa infraestrutura digital será exposta pelo seu colapso. Este ponto de vista não é inédito entre peritos. Ao operarem maioritariamente sobre protocolos descentralizados de transferência de ficheiros e alimentarem sistemas de redundância, os ecossistemas ligados à pirataria digital são os que estão mais bem equipados para a preservação deste tipo de conteúdo num contexto digital. A importância destes voluntários da partilha de cultura está documentada em estudos que indicam que a diminuição da pirataria digital de meios como a música ou o cinema fez com que certos álbuns e filmes acabassem perdidos. A ascensão das transmissões em fluxo e dos serviços de subscrição fizeram com que consumíssemos mais enquanto temos cada vez menos, mas sem cópias não há redundância. Pouco importa se são físicas ou digitais.

Arquivar é uma prática de quem vive apaixonado

Jason Scott, curador e arquivista no Internet Archive, o maior arquivo web do mundo, confirma como este entusiasmo acaba por ser benéfico. Em apenas vinte anos, testemunhámos três gerações de consolas de videojogos domésticas e outras tantas de portáteis. Os sistemas operativos para computador multiplicaram-se a uma velocidade difícil de imaginar no início do milénio. A exclusividade de alguns títulos reservados a determinadas plataformas fez com que tornassem raridades, arredando-os para um universo cada vez mais longínquo de quem os quer jogar. No entanto, contra todas estas adversidades, e apesar da sua curta vida de prateleira e das restrições impostas pelas fabricantes de consolas, os videojogos são o tipo de software mais guardado. Em entrevista para a revista do Shifter e para o Interruptor, Scott explicou-nos que as comunidades de apaixonados garantem que o objeto da sua devoção sobreviverá à inevitabilidade da passagem do tempo. A partilha de algo que nos é querido surge como motor motivacional para essa incessante tarefa de arquivamento. Já categorias como software de produtividade ou educativo, importantes ferramentas dos nossos tempos, acabam votadas ao esquecimento, porque ninguém as amou o suficiente para dedicar algumas horas à sua preservação.

A duração da vida de prateleira, uma metáfora para o tempo que algo estará nas prateleiras do circuito habitual do retalho, é o que dita a longevidade de uma obra – seja de que género ou em que formato for. Quando as edições esgotam sem a urgência de uma nova tiragem, é quase como se esse título desaparecesse. Mesmo que sobreviva num qualquer arquivo, deixam de estar acessíveis à maioria das pessoas e isso é um problema. O cinema português é um caso paradigmático. Com modestas exibições e edições em DVD, a febre à volta de um filme nacional tende a ser de curta duração. Financiado muitas vezes com dinheiros públicos, acaba rapidamente nos arquivos da Cinemateca, o que significa estar longe da maior parte da população. Os mercados de segunda mão são uma ajuda, mas acaba por ser o trabalho dos apaixonados que faz com que estes meios sobrevivam ao longo dos tempos – para lá de falências, desastres e da sua longevidade comercial, mas nem sempre é bem aceite

No passado mês de maio, um utilizador do Internet Archive carregou para a plataforma algumas centenas de horas de emissões antigas da MTV. O impacto do canal foi absolutamente extraordinário, atravessando múltiplas gerações. A revolução da cultura pop chegou pela televisão embrulhada em vídeos musicais e mudou a maneira como milhões de jovens consumiam cultura. Criou ídolos, salvou carreiras, alimentou quase todos os géneros musicais da pop contemporânea (tendo um peso considerável, por exemplo, na ascensão do grunge e do hip-hop no início dos anos 90) e redefiniu os cânones do entretenimento juvenil televisivo com efeitos a longo prazo. Com o tempo, a sua influência espraiou-se pelo apoio a causas sociais como a luta contra o VIH/SIDA e pela defesa dos direitos humanos com ligações aos movimentos feminista, LGBTQ+ e anti-racista. A expansão da televisão por cabo levaria a sua influência a outros cantos do mundo, tornando-a num fenómeno cultural verdadeiramente globalizado disponível nos cinco continentes. Steve Jones, investigador de comunicação na Universidade de Illinois, detalha que as análises académicas às repercussões que a MTV teve nos anos 80 culminariam num conjunto de avanços teóricos desdobrados por múltiplas áreas das ciências sociais, nomeadamente “a semiótica, o pós-estruturalismo, teorias feministas, pós-modernismo, estudos culturais e teoria crítica”.

Pouco depois, o arquivo digital recebia uma notificação para retirar este conteúdo do ar. Apesar da evidente importância do canal enquanto marco cultural e social, será difícil apontar um valor comercial a estas gravações, algumas delas com mais de trinta anos. Mas, sendo propriedade da Viacom, é hoje impossível aceder a conteúdo da MTV que não seja o presente, seja para efeitos recreativos ou académicos.

A visão que prevalece aos olhos da lei é a da cultura enquanto mercadoria e propriedade: original e irreplicável. Scott explana como esta perspetiva é profundamente redutora de toda a cultura que nos rodeia diariamente: “Nos últimos 200 anos (e sobretudo nos últimos 50 ou 70) uma parte significativa da cultura transformou-se num produto comercial. São itens discretos, seja uma gravação ou até algo físico, com um número de identificação específico universalmente reconhecido. E isso é vendido. Se desaparecer [do mercado] pode ser reeditado, tendo reconhecimento e distribuição alargados, tornando-se parte «da cultura». Mas isto é fundamentalmente pensar a cultura como se fosse um produto como um martelo ou um carro. Isto prende-se com essa maneira muito específica de pensar esta pequena lasca de criação humana. E uma das maneiras que estabelece essa capacidade de ser vendida a preços extravagantes é a implicação de que é muito melhor do que qualquer outra coisa. E que só a podes obter desta forma. Pode parecer estranho de verbalizar assim este capitalismo básico. Tipo, está aqui um álbum – estas quatro canções de um artista, canções que toda a gente conhece. Tem um número de identificação próprio e custa €5,99. Entretanto, há criações domésticas, zines, pessoas a gravarem coisas só pela diversão. Há atuações ao vivo, momentos no tempo, textos… Todas estas coisas sem número de identificação, pelas quais não conseguimos procurar. (…) A fórmula parece ser: nada existe até que a consigas vender, mas existem inúmeras classes de coisas [culturais] que não cabem nesta premissa. Por exemplo: bandas de liceu, atuações ao vivo de grupos folclóricos, circulares de supermercado, software escrito por grupos de utilizadores que transformam computadores em brinquedos… Podia ficar aqui a semana toda. Esta ideia de que algo só é real se pudermos pagar 1€ por isso no iTunes é uma farsa. E isto é uma batalha, porque as leis de direito de autor têm ficado mais draconianas. E à medida que cada vez mais bots automatizados dizem «isto soa a um dos produtos e por isso não podes fazê-lo», vamos continuar a assistir a este conflito”. Assim, sem interesses comerciais que consiga explorar, a MTV prefere manter o seu arquivo inacessível.

Foi à margem desta batalha que nasceu o Internet Archive – um arquivo digital sem fins lucrativos com sede em São Francisco. O que começou por ser um arquivo da internet arrancou em 1996, guardando capturas de páginas web. Em 2001, é lançada a Wayback Machine, que permite navegar por versões antigas de websites. A ferramenta mantém-se online até aos dias de hoje, sendo um dos ex-libris do site até hoje, mas não é o único. Arquivando uma variedade quase infinita de conteúdos digitais e digitalizados, a organização sem fins lucrativos preserva software (sim, têm imensos videojogos), livros, música, vídeos, microfilmes e quase tudo o que se possa imaginar. Em novembro de 2020, o seu catálogo incluía 475 mil milhões de páginas web, 28 milhões de livros e textos, 14 milhões de gravações áudio e muito mais.

Um conflito do analógico para o digital

Em 2002, Larry Page e Marissa Mayer demoraram 40 minutos a digitalizar um livro de 300 páginas – foi o primeiro passo de um dos projetos mais ambiciosos da Google. Na verdade, segundo Page, a ideia inicial do motor de busca baseava-se na premissa de melhorar a tecnologia existente numa lógica ancorada na criação de uma “biblioteca digital universal única”. Os livros chegaram um pouco mais tarde, mas seriam os protagonistas de um dos primeiros grandes projetos da empresa de Mountain View. O Google Books (na altura, Google Print) foi apresentado em outubro de 2004, na maior feira do livro do mundo, a de Frankfurt. A iniciativa estava alinhada com a missão da casa-mãe, sendo um motor de busca para pesquisar termos em livros. Dois meses mais tarde, anunciou-se o Google Print Library Project, uma parceria com várias universidades e bibliotecas públicas norte-americanas, cujo objetivo era disponibilizar versões digitalizadas dos seus livros. Não demorou muito tempo (foi logo em 2005) até chegarem os processos judiciais por infração de direitos de autor – primeiro por um grupo de autores, e imediatamente a seguir pela associação de editores americanos. Os primórdios do Google Books são um micro-retrato do resto da sua história: marcada por um apoio institucional de entidades que já arquivavam livros e procuravam uma maneira de os tornarem mais acessíveis e, simultaneamente, pela oposição firme de editoras e outras entidades que exploram os interesses comerciais deste tipo de obras. Quando, em 2008, a Google anunciou ter alcançado a marca dos sete milhões de livros digitalizados, a larga maioria (cerca de cinco milhões) eram obras que já estavam fora da circulação comercial. O braço de ferro com autores e editoras nunca cessou. À medida que páginas e páginas continuavam a ser digitalizadas, começaram também a acumular-se vozes cépticas, que questionavam a legitimidade de uma mega-corporação deter um monopólio sobre o arquivo de livros digitais. A machadada final chegou em março de 2011, quando um tribunal deitou por terra as aspirações de criar uma biblioteca universal digital.

Embora tenha sido praticamente desativado enquanto projeto de grande envergadura, o Google Books mantém-se ligado à máquina. Ainda recebe livros e alimenta uma série de experiências ligadas a análise de texto, inteligência artificial e aprendizagem automatizada, como o Ngrams e o Semantris. Em 2017, segundo uma investigação publicada no The Atlantic, a equipa que no seu auge contabilizava meia centena de engenheiros está agora reduzida a meia dúzia de profissionais que servem de guardiões do tesouro. A sua tarefa principal é garantir que todo este acervo digitalizado permanece restrito.

Em última instância, o empreendimento revolucionou o modo como processamos texto em grande escala, ampliando a sua influência até às humanidades. Ainda que não oficial, o seu encerramento deixa por cumprir um dos maiores sonhos que a internet nos deu: uma biblioteca universal em que todos os livros do mundo estão à distância de apenas um monitor. Afinal, ficou tecnicamente demonstrado ser possível de realizar, mas explícito que nem uma empresa com o poder da Google consegue ultrapassar todos os obstáculos desta epopeia. Com cerca de 20 milhões de livros catalogados, a Open Library é provavelmente a iniciativa mais perto da meta hoje em dia. A biblioteca digital disponibiliza para empréstimo obras em domínio público, fora de circulação comercial e no circuito livreiro. Recentemente, lançou uma ferramenta de exploração que pretende simular a experiência de estar numa biblioteca física, alargando as possibilidades de descoberta de títulos para lá de bolhas algorítimicas. Apesar de operar sem fins lucrativos, o projeto do Internet Archive também tem sido alvo de vários ataques judiciais por parte de múltiplos grupos editoriais e de autores.

A gigante tecnológica mantém, no entanto, o investimento no setor da digitalização em massa e na preservação da memória cultural. Focada na arte espalhada pelos museus de todo o mundo, a iniciativa Google Arts & Culture até disponibiliza coleções de instituições portuguesas em alta resolução. Mas qual o interesse de manter o acervo da nossa história e cultura numa plataforma cuja sede e interesses estão do outro lado do oceano?

Em “The Politics of Mass Digitization”, Nanna Bonde Thylstrup explora várias implicações políticas dos processos de digitalização em massa. Por exemplo, não existe nenhum índice de acesso público que explicite quais os 25 milhões de livros que a Google tem na sua base de dados, nem são conhecidos os critérios de seleção que, de alguma forma, balizam o processo. Foram precisamente estas e outras questões de soberania digital, no contexto da preservação da memória, levantadas pelo megalómano Google Books que levaram à criação de um dos maiores arquivos de património cultural do mundo.

Criada em 2008 com fundos comunitários, a Europeana é uma plataforma que liga milhares de galerias, museus, bibliotecas e outras instituições de preservação cultural europeias, disponibilizando o seu acervo total ou parcialmente na internet. Em permanente atualização, o catálogo da Europeana tem mais de 63 milhões de entradas, reunindo “obras de arte, artefactos, livros, vídeos e sons de toda a Europa”. Por lá, encontramos coleções de cerca de 50 instituições portuguesas, que totalizam quase 232 mil entradas. O número aparentemente alto é facilmente ofuscado quando olhamos para os dados do maior agregador do acervo. Os Países Baixos têm 10 milhões de contribuições. Portugal surge na 21ª posição na lista de países com maior número de obras nessa rede, um reflexo claro do atraso do país na digitalização e consequente disponibilização do seu património.

Numa entrevista ao Shifter, publicada em maio do ano passado, Luís Ramos Pinto refere que, num relatório da Comissão Europeia de 2019, “Portugal era o único país onde não tinha adotado nenhuma das seguintes medidas: estratégias para a digitalização de objetos culturais (nacionais ou regionais), a criação de grupos de trabalho ou programas de financiamento disponíveis para a digitalização (nacional e regional)”. O documento era uma análise da evolução da implementação das recomendações europeias ligadas à digitalização e preservação digital. O especialista em práticas digitais para museus elogiou o programa da Google e as respetivas ferramentas, alargando o espaço de operações deste tipo até outras plataformas, como o ecossistema Wikipédia. Não tem de ser um problema de infraestrutura, porque ela já existe.

“Algo que não é acessível hoje, daqui a dez anos seguramente também não o será”

A maior vantagem do digital é a rapidez com que temos o mundo na ponta dos dedos. Talvez por isso o maior desafio de preservar as páginas da web seja “mantê-las acessíveis ao longo do tempo”, conforme nos explicou Daniel Gomes. Em entrevista, o gestor do Arquivo.pt prosseguiu: “se uma pessoa usa a web do presente e tem informação acessível em poucos segundos, para ela a informação do passado também tem de estar acessível em poucos segundos. Ou seja, temos que desenhar sistemas que consigam manter a informação pesquisável e acessível em poucos segundos, tal como ela era no seu meio original”.

O véu diáfano de abertura que paira sobre a internet torna-se opaco quando é necessário rebobinar. Domínios redirecionados, ligações desativadas, notícias apagadas, catálogos nunca indexados em lado algum… uma parte substancial da cultura que forjou o último quarto de século só existiu na web, mas o seu arquivamento é quase um mito. Gomes avança que 80% dos conteúdos de páginas web que existem hoje serão alterados ou desaparecerão por completo daqui a um ano. No Arquivo.pt guardam-se essas páginas para que o tempo não as leve consigo. À data da nossa conversa, em outubro, conservava mais de dez mil milhões de ficheiros. Além das páginas web, que constituem o ponto central do acervo, há também imagens, alguns vídeos e páginas específicas de redes sociais. Tudo informação acessível publicamente através da internet.

“Idealmente, guardaríamos tudo a toda a hora, mas como tal não é possível selecionámos conteúdos que consideramos de maior importância”, na enumeração de Gomes estão, por exemplo, sites ligados à ciência, à educação e órgãos de comunicação social. Todos os anos, a lista é revista e ajustada conforme as necessidades. Inicialmente, a informação de páginas de OCS era recolhida a cada três meses, mas a equipa acabou por perceber que esse processo precisava de correr com maior frequência, uma vez que muita dessa informação desaparece relativamente rápido. Aliás, não é só a informação que desvanece. Por vezes, são mesmo sites inteiros.

Um desses casos foi a primeira página web portuguesa, que só chegou ao Arquivo.pt graças a um livro, “O Novo Roteiro da Internet” de José Magalhães, que trazia um CD-ROM com páginas web. “Quando soubemos da existência deste livro, fomos à procura do CD-Rom e conseguimos obtê-lo. Pegámos nestas páginas e integrámos no Arquivo.pt. E foi assim que conseguimos encontrar a primeira página da web portuguesa. Não é a primeira versão, que nós já falámos com os autores, mas é a mais antiga que sobrou até hoje”. Em termos de relíquias da web, o Arquivo.pt tem feito um trabalho arqueológico notável, que se estende para lá da web nacional: “por exemplo, a nossa página da Library of Congress era mais antiga do que a própria Library of Congress tinha do seu site. Entretanto, suponho que já tenham feito uma cópia lá também”, continuou Gomes.

Existem, hoje, muitas maneiras de comunicar em linha. Com a evolução do software para aplicações encapsuladas nos nossos navegadores, a missão de preservação da web está notoriamente dificultada. Gomes nomeia a tecnologia React como um dos problemas atuais, avançando “que foi desenhada para fazer aplicações web em que é preciso interação, como redes sociais, mas depois começa-se a usar para tudo… Portanto, tem-se uma página web simples (que é só texto e imagem) e cria-se ali uma complicação enorme que degrada a acessibilidade daquela informação e a sua reutilização”. É um exemplo recente para uma complicação que persiste há décadas. “Em 1999, quando [o Flash] começou a ser usado em grande escala, os especialistas em acessibilidade em web e usabilidade diziam «não usem isto para tudo, isto é para fazer vídeos… tenham cuidado, isto vai dar-vos problemas». E demoraram mais de dez anos, e suponho que milhões de euros em sites que ficaram muito abaixo do seu potencial, porque era o último grito da tecnologia fazer tudo em flash (…) e depois as coisas não funcionavam. Hoje também não se conseguem preservar esses sites, porque o formato é fechado. Depende do programa de reprodução, o formato em si teve várias versões e, por isso, tem de ser combinado com vários reprodutores. Portanto, é um desafio muito difícil de reproduzir um ficheiro em flash.” Gomes rematou a ideia garantindo que “algo que não é acessível hoje, daqui a dez anos seguramente também não o será”. Como tal, a recomendação é que se usem formatos abertos. Para lá das questões tecnológicas, Gomes relembrou ainda que, mesmo na internet, as boas práticas comunicacionais não devem ser descuradas, como inserir a data da publicação de um artigo, algo fundamental para a contextualização adequada da informação arquivada.

Apesar do manancial de informação a que dá abrigo, o Arquivo.pt permanece longe dos radares não só do grande público, mas também das comunidades académica e científica. Foi para colmatar este fosso que surgiu, em 2018, o Prémio Arquivo.pt. O galardão tem edição anual desde então, reconhecendo projetos que adicionam “novas camadas de utilidade” ao arquivo. Este ano, o vencedor foi Miguel Ramalho com o Desarquivo, “um website que permite pesquisar por entidades (ex. pessoas, organizações e locais) e identificar relações entre elas, a partir das notícias publicadas em jornais online ao longo do tempo”.

As aplicações deste espólio são, potencialmente, infinitas e nem sequer têm de incluir o desenvolvimento de software. Usar a informação disponível para editar a Wikipédia ou para completar um artigo jornalístico são coisas relativamente simples, à distância de uma pesquisa trivial.

[infobox]

Este artigo foi publicado na 2ª edição da Revista do Shifter, dedicada à origem do Conhecimento e da chamada Era da Informação. Podes comprá-la, na sua versão PDF, aqui.

[/infobox]

Autor:
31 Maio, 2021

Da paixão à profissão, passou a última década entre a rádio, a música, os videojogos e a tecnologia. É co-fundadora e diretora do Interruptor, uma revista multimédia com podcasts e jornalismo de dados dedicados à cultura. Entusiasta de cultura livre e código aberto; amante de discos e livros. Normalmente, tem passatempos a mais e tempo a menos.

Ver todos os artigos
Partilha este artigo:
Recebe os conteúdos do Shifter, semanalmente no teu e-mail.
Partilha este artigo:

Outros artigos de que podes gostar:

Apoia o jornalismo e a reflexão a partir de 2€ e ajuda-nos a manter livres de publicidade e paywall.