Google revela método para treinar modelos de IA em data centers distribuídos
Nova técnica supera limitações de latência e permite o treinamento de grandes modelos em infraestruturas geograficamente separadas.

Imagine abrir o seu laptop e saber que uma inteligência artificial está sendo treinada agora mesmo.
Mas não em um único prédio, e sim em quatro estados diferentes ao mesmo tempo.
O Google acaba de tornar esse cenário real e eficiente.
A Google DeepMind revelou uma nova técnica que promete mudar como construímos grandes modelos de linguagem.
O método permite treinar IAs em data centers distribuídos geograficamente, superando o fantasma da latência.
Essa novidade pode ser o fim da dependência de gigantescos complexos de computação única.
O fim das barreiras geográficas
> "Essa infraestrutura é autocurável e permite que o treinamento continue mesmo com a perda de unidades inteiras."
Até hoje, treinar uma IA de ponta exigia que milhares de chips estivessem no mesmo lugar.
Isso acontecia porque a comunicação entre eles precisa ser absurdamente rápida.
Qualquer atraso na rede transformava o processo em um pesadelo de lentidão.
Segundo a Fonte original, o Google resolveu isso com o DiLoCo.
A sigla significa *Decoupled Distributed Low-Communication* (Distribuição Desacoplada de Baixa Comunicação).
Na prática, o sistema isola falhas locais e gargalos de rede para que o resto continue aprendendo.
Como o DiLoCo funciona na prática
O segredo está em como o trabalho é dividido entre os processadores.
A técnica particiona as cargas de trabalho em "ilhas" de computação independentes.
Essas ilhas trocam dados de forma assíncrona, o que é uma mudança radical no setor.
O fim do consenso global
Normalmente, todos os chips precisam entrar em acordo a cada passo do treinamento.
Se um único componente falhar ou travar, o sistema inteiro para e espera.
Isso é o que os engenheiros chamam de necessidade de consenso global.
Com o DiLoCo, cada grupo de aprendizado opera em sua própria fatia de dados.
Eles trabalham em sua própria velocidade, sem precisar esperar pelos vizinhos mais lentos.
A arquitetura das "ilhas de computação"
Cada grupo de processadores envia fragmentos de parâmetros para um sincronizador central.
Este coordenador é leve e não sobrecarrega a rede de longa distância.
De acordo com The SDxCentral Magazine, o sistema usa três estratégias principais:
- Estratégia de Quórum Mínimo: Define quantos grupos precisam terminar para o treino avançar.
- Janela de Graça Adaptativa: Um buffer de tempo que maximiza a eficiência das amostras.
- Mesclagem Ponderada de Tokens: Um sistema que dá mais peso aos grupos que processaram mais dados.
Essas ferramentas garantem que o modelo final seja estável e preciso.
Mesmo que uma ilha de computação seja muito mais rápida que a outra.
Sincronização inteligente
O sincronizador central agrega as atualizações de forma assíncrona.
Isso significa que ele não trava o processo enquanto aguarda dados atrasados.
Ele simplesmente reconcilia os estados divergentes dos diferentes aprendizes conforme eles chegam.
Números que impressionam o mercado
A eficiência desse novo método é o que mais chama a atenção de especialistas.
O Google afirma que o sistema alcança o chamado zero global downtime.
Isso significa que o treinamento nunca para completamente, não importa o que aconteça.
Em testes de estresse, o sistema manteve um aproveitamento de quase 90% de eficiência.
Isso mesmo sob simulações agressivas de falhas de hardware em massa.
Para comparação, métodos tradicionais costumam cair para apenas 40% de eficiência nessas condições.
Comparativo de Desempenho:
- Método DiLoCo: 90% de aproveitamento (goodput)
- Métodos Elásticos Tradicionais: 40% de aproveitamento
- Tempo de inatividade: Zero no novo modelo do Google
O teste real com o Gemma 4
Para provar que a teoria funciona, o Google usou sua nova família de modelos.
A equipe treinou uma versão do Gemma 4 com 12 bilhões de parâmetros.
O desafio foi enorme: os processadores estavam espalhados por quatro regiões diferentes dos EUA.
O mais impressionante foi a exigência de rede para essa tarefa hercúlea.
Eles utilizaram conexões de apenas 2 a 5 Gb/s em redes de longa distância.
Isso é considerado pouco para os padrões de treinamento de modelos de linguagem grandes (LLMs).
Mesmo assim, o modelo aprendeu com a mesma qualidade de um sistema local.
> "O DiLoCo continuou o processo após a perda de unidades inteiras e as reintegrou sem falhas."
Essa afirmação de Arthur Douillard, cientista do Google DeepMind, resume o poder da tecnologia.
Por que isso importa para o futuro
Atualmente, a escassez de energia e espaço em grandes centros urbanos é um problema.
Empresas lutam para encontrar locais que suportem data centers massivos e famintos por eletricidade.
Com o DiLoCo, o Google sugere que não precisamos mais de um único "super-prédio".
Podemos espalhar a carga de trabalho por pequenos centros onde houver energia disponível.
Isso pode baratear o custo de treinamento e democratizar o acesso à infraestrutura.
Além disso, o sistema é resiliente contra desastres naturais ou apagões regionais.
Se um data center na Califórnia cair, o treinamento continua em Nova York e Texas.
O veredito
O Google provou que a distância física não é mais um limite intransponível para a IA.
Ao trocar a sincronização rígida por uma colaboração flexível, eles criaram um sistema indestrutível.
O cenário de treinamento de IA acaba de se tornar muito mais dinâmico e global.
Se esse ritmo continuar, em poucos meses o conceito de "supercomputador" será totalmente redefinido.
Qual será o impacto disso na velocidade com que novas IAs chegam ao seu celular?
Redação SWEN
Equipe Editorial
A equipe SWEN é formada por especialistas em Inteligência Artificial e tecnologia, trazendo as notícias mais relevantes do setor com análises aprofundadas e linguagem acessível. Nossa missão é democratizar o conhecimento sobre IA para todos os brasileiros.
