Google revela método para treinar modelos de IA em data centers distribuídos

Nova técnica supera limitações de latência e permite o treinamento de grandes modelos em infraestruturas geograficamente separadas.

Imagine abrir o seu laptop e saber que uma inteligência artificial está sendo treinada agora mesmo.

Mas não em um único prédio, e sim em quatro estados diferentes ao mesmo tempo.

O Google acaba de tornar esse cenário real e eficiente.

A Google DeepMind revelou uma nova técnica que promete mudar como construímos grandes modelos de linguagem.

O método permite treinar IAs em data centers distribuídos geograficamente, superando o fantasma da latência.

Essa novidade pode ser o fim da dependência de gigantescos complexos de computação única.

O fim das barreiras geográficas

> "Essa infraestrutura é autocurável e permite que o treinamento continue mesmo com a perda de unidades inteiras."

Até hoje, treinar uma IA de ponta exigia que milhares de chips estivessem no mesmo lugar.

Isso acontecia porque a comunicação entre eles precisa ser absurdamente rápida.

Qualquer atraso na rede transformava o processo em um pesadelo de lentidão.

Segundo a Fonte original, o Google resolveu isso com o DiLoCo.

A sigla significa *Decoupled Distributed Low-Communication* (Distribuição Desacoplada de Baixa Comunicação).

Na prática, o sistema isola falhas locais e gargalos de rede para que o resto continue aprendendo.

Como o DiLoCo funciona na prática

O segredo está em como o trabalho é dividido entre os processadores.

A técnica particiona as cargas de trabalho em "ilhas" de computação independentes.

Essas ilhas trocam dados de forma assíncrona, o que é uma mudança radical no setor.

O fim do consenso global

Normalmente, todos os chips precisam entrar em acordo a cada passo do treinamento.

Se um único componente falhar ou travar, o sistema inteiro para e espera.

Isso é o que os engenheiros chamam de necessidade de consenso global.

Com o DiLoCo, cada grupo de aprendizado opera em sua própria fatia de dados.

Eles trabalham em sua própria velocidade, sem precisar esperar pelos vizinhos mais lentos.

A arquitetura das "ilhas de computação"

Cada grupo de processadores envia fragmentos de parâmetros para um sincronizador central.

Este coordenador é leve e não sobrecarrega a rede de longa distância.

De acordo com The SDxCentral Magazine, o sistema usa três estratégias principais:

Estratégia de Quórum Mínimo: Define quantos grupos precisam terminar para o treino avançar.
Janela de Graça Adaptativa: Um buffer de tempo que maximiza a eficiência das amostras.
Mesclagem Ponderada de Tokens: Um sistema que dá mais peso aos grupos que processaram mais dados.

Essas ferramentas garantem que o modelo final seja estável e preciso.

Mesmo que uma ilha de computação seja muito mais rápida que a outra.

Sincronização inteligente

O sincronizador central agrega as atualizações de forma assíncrona.

Isso significa que ele não trava o processo enquanto aguarda dados atrasados.

Ele simplesmente reconcilia os estados divergentes dos diferentes aprendizes conforme eles chegam.

Números que impressionam o mercado

A eficiência desse novo método é o que mais chama a atenção de especialistas.

O Google afirma que o sistema alcança o chamado zero global downtime.

Isso significa que o treinamento nunca para completamente, não importa o que aconteça.

Em testes de estresse, o sistema manteve um aproveitamento de quase 90% de eficiência.

Isso mesmo sob simulações agressivas de falhas de hardware em massa.

Para comparação, métodos tradicionais costumam cair para apenas 40% de eficiência nessas condições.

Comparativo de Desempenho:

Método DiLoCo: 90% de aproveitamento (goodput)

Métodos Elásticos Tradicionais: 40% de aproveitamento

Tempo de inatividade: Zero no novo modelo do Google

O teste real com o Gemma 4

Para provar que a teoria funciona, o Google usou sua nova família de modelos.

A equipe treinou uma versão do Gemma 4 com 12 bilhões de parâmetros.

O desafio foi enorme: os processadores estavam espalhados por quatro regiões diferentes dos EUA.

O mais impressionante foi a exigência de rede para essa tarefa hercúlea.

Eles utilizaram conexões de apenas 2 a 5 Gb/s em redes de longa distância.

Isso é considerado pouco para os padrões de treinamento de modelos de linguagem grandes (LLMs).

Mesmo assim, o modelo aprendeu com a mesma qualidade de um sistema local.

> "O DiLoCo continuou o processo após a perda de unidades inteiras e as reintegrou sem falhas."

Essa afirmação de Arthur Douillard, cientista do Google DeepMind, resume o poder da tecnologia.

Por que isso importa para o futuro

Atualmente, a escassez de energia e espaço em grandes centros urbanos é um problema.

Empresas lutam para encontrar locais que suportem data centers massivos e famintos por eletricidade.

Com o DiLoCo, o Google sugere que não precisamos mais de um único "super-prédio".

Podemos espalhar a carga de trabalho por pequenos centros onde houver energia disponível.

Isso pode baratear o custo de treinamento e democratizar o acesso à infraestrutura.

Além disso, o sistema é resiliente contra desastres naturais ou apagões regionais.

Se um data center na Califórnia cair, o treinamento continua em Nova York e Texas.

O veredito

O Google provou que a distância física não é mais um limite intransponível para a IA.

Ao trocar a sincronização rígida por uma colaboração flexível, eles criaram um sistema indestrutível.

O cenário de treinamento de IA acaba de se tornar muito mais dinâmico e global.

Se esse ritmo continuar, em poucos meses o conceito de "supercomputador" será totalmente redefinido.

Qual será o impacto disso na velocidade com que novas IAs chegam ao seu celular?