ARQUITETURA DE INFRAESTRUTURA

Infraestrutura NVIDIA GB200 NVL72 e Cablagem MPO-8 APC para Unidades Escaláveis

Desconstruindo a arquitetura de cablagem de uma Unidade Escalável (SU) Blackwell, onde 8 racks convergem em 9.216 fios de fibra ativa.

A Unidade Escalável (SU) DGX GB200 representa uma grande mudança na arquitetura de data center. A SU é uma entidade unificada de 576 GPUs interconectadas por 9.216 fios de fibra ativa. A ScaleFibre fornece os troncos terminados com precisão necessários para gerenciar essa densidade.

As 4 Redes Físicas do SuperPOD

A NVIDIA segmenta a SU em camadas físicas distintas para isolar o tráfego da GPU.

MN-NVL (NVLink 5)

Scale-Up

A rede interna do rack conectando 72 GPUs a 1,8 TB/s.

  • Zero Fibra Óptica
  • Backplane Passivo de Cobre
  • Conectores Blind-mate

InfiniBand de Computação

Scale-Out

A principal rede ‘East-West’ para treinamento massivo multi-nó.

  • 4.608 fibras ativas por SU
  • Topologia otimizada para trilhos
  • Quantum-3/Quantum-2

Armazenamento e In-Band

Frontend

Rede baseada em Ethernet para ingestão e provisionamento de dados de alta velocidade.

  • Fator de Bloqueio 5:3
  • Descarregamento de DPU BlueField-3
  • Suporte VXLAN/RoCE

Gerenciamento OOB

Plano de Controle

A rede isolada para telemetria de hardware, BMC e gerenciamento de PDU.

  • Cobre RJ45/Cat6
  • Nível de Switch SN2201
  • Segurança física de air-gap

Métricas SU Exascale

Uma Unidade Escalável (SU) de 8 racks representa o bloco de construção fundamental da NVIDIA AI Factory.

9,216

Fibras Ativas por SU

4,608

Fios Somente de Computação

5:3

Proporção de Bloqueio de Armazenamento

400G/800G

Velocidades de Porta Nativas

Os Três Níveis de Conectividade SU

1
Nível A: Servidor para Leaf

1.152 fibras por rack usando troncos ou jumpers de alta contagem de fibras para conectar nós NVL72 a Leaf Switches.

2
Nível B: Leaf para Spine

Agregando tráfego alinhado a trilhos dentro da SU usando links não bloqueantes 1:1 para computação.

3
Nível C: Spine para Core

Dimensionamento além da SU para uma área Core centralizada usando troncos de alta contagem.

Patching Legado (Ponto-a-Ponto)

  • Complexidade Manual: Requer 9.216 patch cords individuais por bloco de 8 racks.
  • Obstrução do Fluxo de Ar: Feixes densos de cabos bloqueiam os caminhos de exaustão de refrigeração líquida.
  • Perfil de Risco: Alta probabilidade de ’trilhos cruzados’ durante o patching manual 1:1.
  • Tempo de Implantação: Mais de 115 horas para roteamento e rotulagem manuais por SU.

Troncos Modulares de Alta Contagem de Fibras

  • Plug-and-Play: Consolida milhares de fibras em troncos pré-terminados adaptados de 128F/144F/256F/288F/576F.
  • Otimização Térmica: Cabos de pequeno diâmetro maximizam o fluxo de ar em racks densos.
  • Eficiência de Caminho: Consolida 1.152 fibras ativas por rack em backbones MPO de alta contagem.
  • Perfil de Instalação: Implantação rápida através de conjuntos pré-terminados e testados em fábrica.

Crescimento de Fibra Ativa: Nó para SuperPOD Completo

Complexidade da Cablagem
9.216 fibras ativas por SU exigem troncos modulares de alta contagem de fibras para evitar o 'caos de cabos' que bloqueia o fluxo de ar.

Unidade Escalável Visualizada

O Bloco de Computação de 8 Racks
O Bloco de Computação de 8 Racks

Uma SU (Unidade Escalável) NVIDIA GB200 consiste em 8 racks, cada um abrigando um sistema DGX GB200 NVL72 com 72 GPUs.

Distribuição de Troncos de Alta Contagem de Fibras
Distribuição de Troncos de Alta Contagem de Fibras

Consolidando milhares de fibras de rack em troncos de alta densidade para desobstrução do fluxo de ar, instalação rápida e uso mínimo de caminhos.

Refrigeração Líquida
Refrigeração Líquida

Placas frias refrigeradas a líquido estabilizam o ambiente da bandeja, permitindo que os transceptores OSFP disipem o calor eficazmente através de dissipadores de calor acoplados.

Technical FAQ

+ Como a contagem da SU se mantém gerenciável em 9.216 fibras?
Usando uma hierarquia de cablagem em camadas. Troncos de alta contagem de fibras substituem milhares de patch cords MPO individuais, reduzindo o volume físico e prevenindo obstruções de resfriamento.
+ O que é o 'Fator de Bloqueio 5:3' na rede de armazenamento?
Ao contrário da rede de computação não bloqueante (1:1), a rede de armazenamento é intencionalmente superprovisionada. Isso reduz custos e complexidade de fibra, ao mesmo tempo em que atende ao requisito de 40GB/s por nó para armazenamento. A implantação frequentemente utiliza cabos patch MPO compatíveis com NVIDIA.
+ Por que a rede NVLink interna não tem fibras?
A NVIDIA utiliza um backplane passivo de cobre e cartuchos de cabo dentro do rack NVL72. Isso elimina milhares de transceptores e fibras ópticas, reduzindo significativamente o consumo de energia e a latência. A fibra óptica é reservada para a rede de computação scale-out.
+ O que acontece quando escalamos para 16 Unidades Escaláveis?
Na escala de 16 SUs (9.216 GPUs), a contagem total de fibras ativas apenas para a rede de computação atinge 18.432 fios. Gerenciar essa densidade requer caixas de alta densidade projetadas especificamente para fibras ópticas de alta contagem e arquiteturas de comutação de grupo de núcleo centralizado.
+ Por que MPO-8 é usado em vez do MPO-12 padrão?
Os transceptores modernos 400G NDR e 800G XDR usam ópticas paralelas de 4 ou 8 pistas. Um alinhamento MPO de 8 fibras corresponde perfeitamente à configuração 4x Tx e 4x Rx. Usar troncos MPO ativos de 8 fibras elimina fibras ’escuras’ ou desperdiçadas dentro da rede do cluster.
+ Qual a importância do polimento APC (Angled Physical Contact)?
A sinalização 100G-PAM4 de alta velocidade é extremamente sensível a reflexões. O ângulo de 8 graus de um conector APC garante que a luz refletida seja absorvida no revestimento da fibra, mantendo a alta Perda de Retorno Óptico (ORL) necessária para o treinamento de IA sem erros.
+ Como a densidade da fibra afeta os centros de dados refrigerados a líquido para IA?
Mesmo com bandejas refrigeradas a líquido, o ar ainda precisa circular para gerenciar o calor secundário. Usar cabos SmartRibbon de alta densidade reduz significativamente o diâmetro do cabo, garantindo que a cablagem física não obstrua o fluxo de ar ou os coletores de refrigeração líquida.
+ Quais são as limitações de distância para cablagem em nível de SU?
Multimodo (OM4/OM5) é restrito a 50 metros para 400G/800G. Para links Spine-to-Core centralizados que excedem isso, a fibra Monomodo G.657.A1 é obrigatória para suportar alcances maiores sem degradação do sinal.
+ Posso usar cabos externos padrão para backbones de data center de IA?
Não. As salas internas de IA exigem LSZH (Low Smoke Zero Halogen), Riser ou Plenum para atender aos regulamentos de segurança contra incêndio exigidos, dependendo das regulamentações locais. Para caminhos de alta densidade, cabos internos SlimCORE especializados fornecem a contagem de fios necessária em um diâmetro reduzido.
+ Qual é o benefício de pigtails terminados em fábrica na SU?
Pigtails de fibra óptica com cabo MPO permitem a emenda de fusão em massa rápida na camada Spine ou Core. Essa terminação controlada em fábrica em uma extremidade oferece os benefícios da pré-terminação, enquanto a extremidade ‘bruta’ permite flexibilidade para encaixe no comprimento necessário no local.

Projete a Sua Fábrica de IA

A ScaleFibre oferece soluções de cablagem pré-terminadas para implantações NVIDIA DGX SuperPOD.

Entre em Contato

Obtenha detalhes sobre troncos de alta contagem de fibras para a sua SU NVidia DGX.