Intel minimiza CPU híbrida
Quando a Intel anunciou seu projeto "Falcon Shores" para construir um mecanismo de computação híbrido de CPU-GPU em fevereiro de 2022 que permitia o dimensionamento independente da capacidade de CPU e GPU em um único soquete, parecia que o fabricante de chips estava se preparando para enfrentar os rivais Nvidia e a AMD avança com motores de computação híbridos, que a Intel chama de XPUs, a AMD chama de APUs e a Nvidia realmente não tem se você quiser ser rigoroso sobre o que são seus "superchips" e o que não são.
Como apontamos na época, essa abordagem "Aurora em um soquete" de colocar uma mistura mutável de chiplets de CPU e GPU em um soquete Xeon SP com literalmente a mesma memória principal e um link de latência muito baixa entre os chiplets permite soluções mais complexas A inferência AI do que a unidade matemática de matriz AMX em um Xeon SP poderia lidar tão bem quanto mais processamento de ponto flutuante HPC do que é possível em uma unidade vetorial AVX-512 sem fazer com que os clientes recorram a uma latência mais alta, GPU discreta na linha Max Series ou mesmo uma GPU discreta da Nvidia ou da AMD.
Quando anunciado por Raja Koduri, que era gerente geral dos negócios de Sistemas de Computação Acelerada e Gráficos da Intel – que foi descontinuado após Koduri deixar a Intel em março deste ano – a Intel estava prometendo que Falcon Shores entregaria mais de 5X melhor desempenho por watt, densidade de computação 5 vezes maior em um soquete X86 e largura de banda e capacidade de memória 5 vezes maior com o que é chamado de "memória compartilhada de largura de banda extrema". Presumimos que esses números foram comparados a um soquete de servidor Xeon SP "Ice Lake", e ambos eram as principais partes do bin.
Falcon Shores foi programado para 2024 e amplamente esperado para se conectar diretamente à mesma plataforma de servidor "Mountain Stream" usada pelos futuros Xeon SPs "Granite Rapids". E conjecturamos que a Intel poderia fazer algo maluco, como dar à GPU uma camada de emulação que a fizesse parecer uma grande e gorda unidade de matemática vetorial AVX-512 para simplificar a programação. (Ou mais provavelmente uma unidade AMX, agora que pensamos um pouco mais sobre isso.)
Em março deste ano, quando Koduri estava deixando a Intel, a empresa voltou a pedalar não apenas oferecendo o que pareciam ser cinco misturas de chiplet CPU-GPU diferentes dentro de um soquete Xeon SP, mas também eliminou o kicker "Rialto Bridge" para o GPU "Ponte Vecchio" Max Series que fará a maior parte do pico de processamento de 2 exaflops no supercomputador "Aurora" no Argonne National Laboratory. Na época, havia rumores de que os primeiros dispositivos Falcon Shores seriam lançados em 2025, e apenas com chiplets de GPU, tornando o dispositivo basicamente uma substituição discreta de GPU para a Ponte Vecchio no lugar da Ponte Rialto. A Rialto Bridge foi liberada porque a Intel queria mudar para uma cadência de GPU de dois anos em seus roteiros - e razoavelmente porque é isso que a Nvidia e a AMD estão fazendo.
Na recente conferência de supercomputação ISC23 em Hamburgo, a Intel esclareceu suas intenções em relação ao Falcon Shores, confirmando que não apenas este dispositivo seria um mecanismo de computação apenas para GPU, mas que o tempo para XPUs híbridos ainda não era o certo.
"Meu esforço anterior e ênfase em integrar CPU e GPU em um XPU foram prematuros", explicou Jeff McVeigh, gerente geral do Super Compute Group, em briefings para o evento ISC23. E, francamente, McVeigh provavelmente está assumindo a responsabilidade por algo que foi realmente uma decisão tomada por Koduri e talvez até com Jim Keller na mistura, que saiu para se tornar diretor executivo e agora diretor de tecnologia da startup de IA Tenstorrent há mais de dois anos.
"E a razão é", continuou McVeigh em sua explicação, "sentimos que estamos em um mercado muito mais dinâmico do que pensávamos apenas um ano atrás - toda a inovação em torno de modelos de linguagem grande de IA generativa. Embora muito disso tenha sido no espaço comercial, vemos isso sendo adotado de forma muito mais ampla também em empreendimentos científicos. E quando você está nesse mercado dinâmico, onde as cargas de trabalho estão mudando rapidamente, você realmente não quer se forçar a seguir o caminho de uma CPU fixa relação GPU. Você não quer corrigir os fornecedores ou mesmo as arquiteturas usadas entre X86 e Arm - quais são as melhores para permitir flexibilidade, permitir um bom suporte de software entre eles - versus quando você está em um mercado maduro. Quando as cargas de trabalho são fixas, quando você tem uma clareza muito boa sobre elas, que não vão mudar drasticamente, a integração é ótima. Fizemos a integração muitas e muitas vezes. Isso ajuda nos custos, reduz poder. Mas você está consertado. Você está consertado com os fornecedores desses dois componentes, você está consertado com a forma como eles estão configurados. E nós apenas sentimos que nosso verdadeiro reconhecimento de onde o mercado está hoje é que não é hora de integrar."