DeepSeek: uma baleia chinesa no mar dos tubarões da IA

DeepSeek: uma baleia chinesa no mar dos tubarões da IA

4 Fevereiro, 2025 /
Fotografia da pasta de Apps de um iPhone onde se vêm as principais apps de IA como Copilot, Claude, ChatGPT e DeepSeek. A imagem está animada e fica ondulada, representando a ideia de mar do título.

Índice do Artigo:

Nas últimas semanas, o mundo da tecnologia não tem falado de outra coisa: DeepSeek, um novo modelo de IA criado por uma empresa chinesa com o mesmo nome, parece ter chegado para ficar. Mas que novidades traz? E que implicações — na tecnologia e na geopolítica?

Parecia Deja Vu. Num momento reminiscente de 2022 e do surgimento do ChatGPT, o surgimento do DeepSeek tomou por completo o ciclo noticioso. Durante os últimos dias, ainda na ressaca da tomada de posse de Donald Trump, só se falou de IA para falar sobre a startup chinesa DeepSeek que lançou um modelo com o mesmo nome, e de como esta ameaça o domínio americano do sector. Com performances semelhantes à dos modelos de última geração ocidentais, mas de acesso livre, com a arquitectura e o processo de treino bem documentado, os modelos lançados pela empresa fizeram furor não só por desafiarem a liderança do sector mas também por porem em causa muitos dos pressupostos sobre os quais este se tem erguido.

Resumidamente, e como foram dando conta a maioria das notícias, os resultados obtidos pela DeepSeek demonstram que é possível criar modelos concorrentes com os melhores, com uma fração do poder computacional, logo menor custo financeiro e energético. O que levou a startup chinesa a procurar esse caminho é uma lição sobre política, regulação e inovação. Os resultados surpreendentes surgem depois de uma tentativa norte-americana de limitar os progressos chineses no desenvolvimento de tecnologias de ponta como a Inteligência Artificial, através da suspensão da venda de processadores de última geração. Com este lançamento, não só a DeepSeek finta os obstáculos para se juntar ao grupo da frente na corrida à IA, como sugere um atalho para a reconfiguração do panorama global da IA. 

Sede dos principais titãs tecnológicos, desde os mais conhecidos — Meta, Amazon, Microsoft e Google — aos mais importantes nesta corrida como a Nvidia, os EUA têm gozado de uma particular vantagem competitiva no desenvolvimento e implementação da tecnologia. Com acesso a capital, fornecedores de hardware e desenvolvedores de software, têm sido líderes no investimento na Inteligência Artificial – criando novas infraestruturas para a criação de modelos, com mais disponibilidade energética e computacional. Mas se até agora a evolução no sector da IA se inspirava no mote scale is all you need, traduzido em planos para o aumento da infraestrutura e da concentração de poder computacional — mais centros de dados, mais processadores, mais energia para obter uma melhor IA —, a resposta chinesa revelou uma nova forma de fazer as coisas, que altera também as perspectivas de retorno.

Multi-Head Lateral Attention is all you need! 

Se o entusiasmo em torno do Deepseek só agora chegou aos meios de comunicação generalistas e ao grande público, a verdade é que é o resultado de uma sequência de lançamentos que começou no ano passado, e de uma mistura caótica entre inovação tecnológica, expectativa de consequências económicas e simpatia dos pares. E está alavancado na toada confrontacional entre EUA e China que marca a relação entre estas super potências. 

Explicado de forma simples, o que a DeepSeek conseguiu foi uma forma mais eficiente de a arquitectura Transformer (também base do ChatGPT) lidar com a informação latente. Otimizando os ciclos de computação necessários para processar cada sequência de tokens (unidade básica da informação processada pelos modelos), a empresa terá conseguido treinar modelos de Inteligência Artificial capazes de concorrer com os melhores do mercado, gastando uma fração dos recursos computacionais. Mas para perceber o que isto significa na prática, porque gerou tanto entusiasmo e como pode ter um efeito revolucionário, é preciso desdobrar o anúncio e ir para além das letras grandes. 

Primeiro que tudo, vale a pena começar por diferenciar dois dos modelos lançados, o V3 e o R1. E para perceber de que se tratam o melhor é comparar com os incumbentes da OpenAI. O V3 é um Grande Modelo de Linguagem (o chamado modelo fundacional) semelhante ao GPT 4o. Já o R1 é um modelo criado a partir do V3, semelhante ao o1 da OpenAI, optimizado para tarefas como a programação, a matemática e a resolução de problemas. Por outras palavras, o V3 é o modelo geral, contendo muita informação generalista e que pode ser usado de forma mais barata. Enquanto o R-1 tem menos informação mas é optimizado para um processamento mais sofisticado sendo, por isso, mais caro, apesar de mais pequeno. 

Assim, foi no treino do primeiro (v3) que a DeepSeek demonstrou os seus ganhos de eficiência. Mas o lançamento do segundo (DeepSeek-R1) deu a derradeira prova das suas capacidades de competir com os mais cotados. Ao obter resultados semelhantes aos obtidos pelo modelo da OpenAI, o1, sobre o qual pouco foi publicado, a DeepSeek demonstrou ser capaz de criar estes modelos considerados de última geração. E fê-lo de forma distintiva, ao partilhar o processo em artigos bem documentados e partilhando versões do modelo que qualquer um pode descarregar e executar nos seus sistemas, o que lhe valeu a simpatia da comunidade. 

Segundo a documentação do projecto, e a análise feita por especialistas como o centro de investigação Epoch AI, o custo de treino do modelo V3 lançado pela DeepSeek terá sido apenas cerca de 5,6 milhões de dólares. O processo terá consumido um décimo dos recursos computacionais utilizados para treinar um modelo com uma performance semelhante, como o Llama 3.1 405B. Para além disso, estes ganhos de eficiência não se resumem ao treino, também se expandem à execução dos modelos. O que faz com que a empresa consiga comercializar a utilização do modelo muito mais barata do que a concorrência.  

Outro dos atributos que têm sido destacados, uma vez que os modelos estão disponíveis para quem os quiser usar o fazer livremente, é que os modelos são open source, mas a verdade é que os modelos não obedecem à definição vigente de Inteligência Artificial. Ao manter em segredo os dados utilizados no treino do modelo, tal como fazem as concorrentes norte-americanas, pode dizer-se que o modelo se qualifica para a definição de open weights, mas não de open source. Isto porque temos acesso ao modelo (a matriz de pesos), mas não aos dados a partir dos quais ele foi criado. Este processo limita a investigação e a real compreensão dos resultados – nomeadamente no que toca à utilização de material protegido por direitos de autor, ou dados sintéticos gerados por outros modelos anteriores (como acusa a OpenAI). 

Se todas estas nuances podem parecer meros detalhes técnicos, e a complexificação pode parecer desnecessária, são detalhes técnicos que enquadram o potencial da DeepSeek, a contextualizá-la no panorama global, e a compreender o que daí pode resultar. 

A Baleia Chinesa

Embora os métodos e os hábitos da DeepSeek sejam completamente distintos dos da OpenAI, a crença que subjaz à criação de cada uma das empresas pode não ser assim tão diferente. O nome DeepSeek pode ser ainda desconhecido, e a empresa ter sido fundada apenas em 2023, mas a sua história começou antes. A DeepSeek nasceu no seio da High-Flyer, um fundo de investimento de cobertura quantitativo – que na prática é um fundo altamente especulativo que usa dados e algoritmos, mais do que qualquer estratégia ou política económica, para tomar decisões de investimento. Foi para desenvolver este fundo e a sua plataforma de investimento automatizado que a High-Flyer foi acumulando recursos computacionais, colectando dados em massa e desenvolvendo competências no ramo da IA, sempre com o intuito de optimizar os algoritmos de investimento e lucrar mais. E foi nesse contexto que o fundador da High-Flyer foi consolidando a sua ambição em criar modelos de IA de ponta, mas sobretudo a confiança de que seria capaz de o fazer.

Foi em 2023, depois de 7 anos de actividade no mercado, com alguns anos de perda significativa, mas um crescimento global digno de registo, que a DeepSeek foi fundada. Nessa altura, recebiam  avisos do governo chinês para que os fundos desta tipologia se focassem mais na “prosperidade comum” e não só em remunerar os seus investimentos,.  Dando corpo ao sonho antigo do fundador da High-Flyer, Liang Wenfeng, a DeepSeek nasceu como o culminar de um percurso de quase uma década dedicada à angariação de recursos com muita história pelo meio, e uma perseguição quase obstinada do sonho da AGI (Artificial General Intelligence). 

“O que queremos fazer é Inteligência Artificial Geral, ou AGI. O modelo de linguagem grande pode ser o único caminho para a AGI.” As palavras, proferidas em 2023, são de Wenfeng; mas, sem contexto, facilmente podiam ser atribuídas a Sam Altman ou outro dos líderes do sector. Tal como a OpenAI prometia inicialmente, a DeepSeek entrou no mundo da IA sem pensar em criar aplicações prontas a usar pelos utilizadores, mas antes para tentar desvendar as questões fundamentais em torno da Inteligência Artificial Geral. Com este objectivo comum foram, contra-intuitivamente, ou não, as limitações que tornaram o percurso desta empresa singular. 

Fazendo das fraquezas forças, a empresa agarrou-se ao hardware que tinha acumulado durante o tempo em que ainda o podiam comprar – fala-se em cerca de 10 mil GPUS – e pôs mãos à obra. Sem pressa de lançar algo e com dinheiro para gastar em investigação e recursos humanos, Liang Wenfeng não esperou muito até que o esforço começasse a compensar. 

Com as limitações de hardware inultrapassáveis por questões políticas a impedirem a empresa de optar pelo caminho que todas as outras seguiram, a opção foi apostar num ambiente diferente e em jovens capazes de pensar fora da caixa. Em vez de montar uma equipa experiente e batida na área, Liang Wenfeg preferiu focar-se em recrutar talento jovem, acabados de sair das principais universidades chinesas e, para si, este terá sido um dos segredos para o sucesso. Não só estes jovens têm mais tempo para se dedicar “a uma missão”, como foram educados já sob a aura da restrição de importação de microchips, o que aguçou o seu engenho, bem como o seu sentimento patriótico e a vontade de fintar as sanções — como revela em entrevista à plataforma chinesa 36KR.

Inovação, regulação e competição

Para percebermos a sequência dos acontecimentos e a magnitude da potencial revolução conseguida pela equipa da DeepSeek basta olhar para a Nvidia. A empresa que era até então a mais valiosa do mundo, viu a sua valorização descer 564 mil milhões no dia do lançamento da DeepSeek, a maior queda diária da história da bolsa, numa demonstração cabal de como as expectativas de evolução do mercado se alteraram. Se até aqui a Nvidia vinha lucrando com todos os desenvolvimentos de IA por ser um fornecedor de processadores otimizados para a tecnologia, a mudança implementada pelo DeepSeek faz rever em queda da procura por poder computacional – que se vende sobre a forma de processadores – e fez pairar sobre a bolsa norte-americana o fantasma da dúvida.

Numa altura em que Donald Trump encabeça um governo com relações muitíssimo estreitas com os principais titãs da tecnologia — anunciou o projecto Stargate, numa parceria com a Arm, Microsoft, Nvidia, Oracle, e OpenAI,  para canalizar 500 mil milhões de dólares para a indústria da IA, e promete implementar tarifas nas importações com os seus principais inimigos (entre os quais a China)—, o DeepSeek mostra como o caminho imaginado pela oligarquia norte-americana pode não ser assim tão simples e directo. E que, ao contrário do que pudessem pensar, o sequestro do hardware não chega para manter a China num segundo plano de inovação tecnológica. 

Habituados a pensar na lógica do utilizador, alienados face às interdependências subjacentes a estes avanços e recuos nas tecnologias de ponta, é-nos difícil conceber a ligação entre as extremidades. Mas a melhor pista para o entender é olhar para como os próprios envolvidos parametrizam o seu sucesso. Num relatório da parceria entre OpenAI e Microsoft, classifica-se de AGI um sistema que seja capaz de gerar 100 biliões de dólares em lucro, o que diz bastante sobre o horizonte desta corrida.

E se a tecnologia se confunde com o hype, e o hype se confunde cada vez mais com o valor da tecnologia, a chegada do DeepSeek veio abalar os alicerces da indústria porque expôs uma realidade que muitos preferiam ignorar: a inovação não segue um caminho linear nem previsível. As grandes potências, acostumadas a moldar o mercado à sua imagem, vêem-se agora diante de um cenário em que o domínio tecnológico não é apenas uma questão de capital, mas de estratégia, de narrativas, de ideologia e de modelos de negócio. E com um concorrente chinês que não se pode dar ao luxo de não estar preocupado com ortodoxias como reports mensais, receitas rápidas ou custos tão elevados de hardware. 

O DeepSeek demonstrou que a dependência de hardware não é um entrave intransponível e que o capital, por si só, não garante supremacia nem inovação. No meio de uma disputa onde cada avanço técnico tem implicações políticas e económicas, a empresa abriu caminho para a diversificação do mercado e para a entrada de outros concorrentes — como empresas europeias com menos acesso a recursos que empresas das grandes potências, mas capacidades demonstradas em modelos como o Mistral. E reabriu a competição num mercado global que parecia destinado ao domínio norte-americano, como aconteceu com tecnologias anteriores como os social media, mas com implicações potencialmente maiores. 

A disseminação de um modelo de IA em vários domínios pode ter consequências imprevisíveis. Para além de ganhos a nível prático, avanços científicos e todos os outros cenários em que a IA pode contribuir efectivamente para o progresso, esta tecnologia poderá ter outras implicações. Desde o controlo de narrativa através da censura dos outputs dos modelos, como em todos os exemplos-meme em que o DeepSeek se recusa a falar de Tiananmen ou as palavras simpáticas do ChatGPT, até à coleta massiva de dados que põem em causa a privacidade na utilização destes sistemas e podem ir desde a conversa do chat até tarefas profissionais mais complexas. 

O que fica claro é que a corrida para a AGI não é só uma disputa científica nem comercial no presente, mas uma batalha pelo futuro – e um novo campo de disputa geopolítica tal como as tarifas de que tanto se tem falado ultimamente. O desenvolvimento tecnológico está cada vez mais relacionado com estruturas de poder que procuram definir o futuro à sua maneira. E se antes o debate girava em torno da concentração de recursos computacionais e a capacidade técnica, cada vez mais se desvia para um terreno onde regulação, soberania e modelos de negócio e governança tecnológica serão igualmente determinantes. O jogo mudou — e o futuro da Inteligência Artificial será decidido cada vez menos nos laboratórios, e cada vez mais nas salas de executivos onde se criam planos para a implementação da tecnologia nas cadeias de produção que dominam o mundo.

E, no final do dia, nada nos garante que os ganhos computacionais se traduzam efectivamente num menor consumo energético, ou numa utilização mais ponderada e racional da energia, porque ao olhar para a lógica expansionista que tem caracterizado o mundo das big tech (em ambos os lados do mundo) o mais provável é que inventem alguma utilização de valor duvidoso, como durante as últimas grandes transformações tecnológicas se inventaram tantos empregos de merda.  

Gostaste deste artigo?

Subscreve a partir de 2€/mês, recebe uma newsletter exclusiva, acesso a descontos e passatempos, e contribui para mais textos como este.

Autor:
4 Fevereiro, 2025

O João Gabriel Ribeiro é Co-Fundador e Director do Shifter. Assume-se como auto-didacta obsessivo e procura as raízes de outros temas de interesse como design, tecnologia e novos media.

Ver todos os artigos
Partilha este artigo:
Recebe os conteúdos do Shifter, semanalmente no teu e-mail.
Partilha este artigo:

Outros artigos de que podes gostar: