AMD pode desafiar a Nvidia no mercado de data centers para IA com supercomputador de 1,2 milhão de GPUs
Por Sandro Felix
Publicado em 27/06/24 às 16:09
Em uma surpreendente virada no mercado de tecnologia, a AMD pode estar prestes a se tornar um competidor sério contra a Nvidia no fornecimento de GPUs para data centers, à medida que a demanda por poder computacional cresce rapidamente. A empresa foi recentemente abordada por um cliente solicitando a criação de um cluster de treinamento de IA composto por impressionantes 1,2 milhão de GPUs, o que o tornaria 30 vezes mais poderoso que o Frontier, atualmente o supercomputador mais rápido do mundo. Em 2023, a AMD forneceu menos de 2% das GPUs para data centers.
Em uma entrevista ao The Next Platform, Forrest Norrod, gerente geral de Soluções para Data Centers da AMD, revelou que a empresa recebeu consultas genuínas de clientes interessados em construir clusters de treinamento de IA utilizando 1,2 milhão de GPUs. Para contextualizar, os clusters de treinamento de IA atuais geralmente são construídos com alguns milhares de GPUs conectadas via interconexões de alta velocidade em vários racks de servidores locais.
A escala sendo considerada para o desenvolvimento de IA agora é sem precedentes, disse Norrod.
Alguns dos clusters de treinamento que estão sendo contemplados são verdadeiramente impressionantes.
O maior supercomputador conhecido utilizado para treinar modelos de IA, o Frontier, possui 37.888 GPUs Radeon, tornando o potencial supercomputador da AMD 30 vezes mais poderoso que o Frontier.
No entanto, não é uma tarefa simples. Mesmo nos níveis de potência atuais, há uma infinidade de desafios a serem considerados ao criar clusters de treinamento de IA. O treinamento de IA requer baixa latência para fornecer resultados rápidos, utiliza quantidades significativas de energia e falhas de hardware devem ser levadas em consideração – mesmo com apenas alguns milhares de GPUs.
A maioria dos servidores opera com cerca de 20% de utilização e lida com milhares de pequenos trabalhos assíncronos em máquinas remotas. Contudo, a ascensão do treinamento de IA está levando a uma mudança significativa na estrutura dos servidores. Para acompanhar os modelos e algoritmos de aprendizado de máquina, um data center de IA deve estar equipado com vastas quantidades de poder computacional especialmente projetado para a tarefa. O treinamento de IA é essencialmente um grande trabalho síncrono que requer que cada nó no cluster passe informações de um lado para o outro o mais rápido possível.
Embora o proposto supercomputador de 1,2 milhão de GPUs possa parecer extravagante, Norrod mencionou que “pessoas muito sóbrias” estão considerando gastar até cem bilhões de dólares em clusters de treinamento de IA. Isso não deveria ser um choque, pois os últimos anos no mundo da tecnologia foram definidos pela explosão nos avanços da IA.