banner
Lar / blog / O hype da IA ​​elevará os preços das GPUs do datacenter às alturas
blog

O hype da IA ​​elevará os preços das GPUs do datacenter às alturas

Dec 20, 2023Dec 20, 2023

ATUALIZADAComo muitos construtores de sistemas HPC e AI, estamos ansiosos para ver como o sistema híbrido CPU-GPU "Antares" Instinct MI300A no chip da AMD pode parecer em termos de desempenho e preço.

E com a conferência de supercomputação ISC 2023 chegando em algumas semanas, e Bronis de Supinski, diretor de tecnologia do Lawrence Livermore National Laboratory, está dando uma palestra no evento sobre o futuro sistema de exascale "El Capitan" que será a máquina carro-chefe para a variante MI300A das GPUs Antares, isso está em nossas mentes.

Então, apenas por diversão, pegamos a planilha confiável do Excel e tentamos estimar quais podem ser os feeds e velocidades das GPUs MI300 e MI300A, a última das quais estará no coração do sistema El Capitan. Sim, talvez isso seja loucura, considerando que a AMD provavelmente falará um pouco mais sobre a série MI300 de GPUs no ISC 2023 e além, e eventualmente saberemos exatamente como esse mecanismo de computação é arquitetado. Mas muitas pessoas continuam nos perguntando se a série MI300 pode ser competitiva com os aceleradores de GPU Nvidia "Hopper" H100 e, talvez mais importante, competitiva com a combinação da CPU "Grace" Arm de 72 núcleos amarrada firmemente ao Hopper GPU H100 para criar um complexo combinado de CPU-GPU híbrido Grace-Hopper que irá de igual para igual com o MI300A que será implantado no El Capitan e, acreditamos, em outras máquinas híbridas de CPU-GPU executando cargas de trabalho de HPC e IA lado a lado.

E considerando a intensa demanda por computação de GPU, impulsionada por uma explosão no treinamento de IA para aplicativos generativos de IA baseados em grandes modelos de linguagem, e o desejo da AMD de jogar mais no treinamento de IA com suas GPUs, achamos que a demanda superará a Nvidia fornecimento, o que significa que, apesar da enorme vantagem que a pilha de software Nvidia AI tem sobre a AMD, as GPUs deste último obterão algumas vitórias no fornecimento de IA. As GPUs "Aldebaran" predecessoras já têm algumas vitórias impressionantes em design de HPC para a AMD, principalmente no sistema exascale "Frontier" no Oak Ridge National Laboratory, com quatro dessas GPUs de chip duplo conectadas a uma CPU Epyc "Trento" personalizada para criar um mecanismo de computação híbrido mais fracamente acoplado. (Existem outros.) E achamos que a intensa demanda por GPUs Nvidia para cargas de trabalho de IA realmente deixará uma abertura para a AMD fechar alguns negócios, pois a demanda supera a oferta.

As pessoas não serão mais pacientes em adicionar IA generativa às suas cargas de trabalho hoje do que no final dos anos 1990 e início dos anos 2000 para adicionar infraestrutura da Web para modernizar seus aplicativos para implantar interfaces para eles na Internet. A diferença desta vez é que o datacenter não está se transformando em um substrato de computação X86 de uso geral, mas está se tornando cada vez mais um ecossistema de arquiteturas concorrentes e complementares que são entrelaçadas para fornecer o melhor retorno possível para o investimento. em uma ampla variedade de cargas de trabalho.

Ainda não sabemos muito sobre a série MI300, mas em janeiro a AMD falou um pouco sobre os dispositivos, que abordamos aqui. Temos uma imagem de um dos dispositivos e sabemos que um deles terá 8 vezes o desempenho de IA e 5 vezes o desempenho de IA por watt do acelerador de GPU MI250X existente usado no sistema Frontier. Sabemos que uma das séries MI300 tem 146 bilhões de transistores em seus nove chiplets. Uma grande parte dessa contagem de transistores, pensamos, é implementada em quatro ladrilhos de 6 nanômetros que interconectam os elementos de computação da CPU e da GPU que também possuem o Infinity Cache gravado nelas. É difícil dizer quantos transistores esse cache usa, mas estamos ansiosos para descobrir.

A propósito, achamos que o MI300A é chamado assim para designar que é uma versão APU – significando uma combinação de núcleos de CPU e GPU em um único pacote – do principal mecanismo de computação paralela da AMD. Isso implica que haverá versões não APU, apenas GPU da GPU Antares, talvez com um máximo de oito chiplets GPU sobre esses quatro chips de interconexão e cache, mostrados abaixo no que pensamos ser o MI300A: