Tecnologia
NVIDIA leva inferência a novos patamares nos testes de MLPerf
Published
2 anos agoon
As GPUs NVIDIA H100 e L4 levam IA generativa e todas as outras cargas de trabalho a novos níveis nos atuais benchmarks MLPerf, enquanto Jetson AGX Orin obtém ganhos de desempenho e eficiência
A NVIDIA leva inferência e IA a novos níveis de desempenho e eficiência da nuvem até o edge, segundo os mais recentes benchmarks do setor. Em uma nova rodada de testes MLPerf, as GPUs NVIDIA H100 Tensor Core executadas em sistemas DGX H100 apresentaram o mais alto desempenho em todos os testes de inferência de IA, o trabalho de executar redes neurais em produção. Graças às otimizações de software, as GPUs apresentaram ganhos de desempenho de até 54% desde sua estreia em setembro.
Alimentada por seu Transformer Engine, a GPU H100, baseada na arquitetura Hopper, se destacou no BERT, um grande modelo de linguagem baseado em transformer que abriu o caminho para o amplo uso da IA generativa. O BERT foi projetado para ajudar os computadores a entender o significado de linguagem ambígua no texto, usando o texto ao redor para estabelecer um contexto.
A IA generativa permite que os usuários criem rapidamente textos, imagens, modelos 3D e muito mais. É um recurso que as empresas, startups e provedores de serviços em nuvem estão adotando rapidamente para habilitar novos modelos de negócios e acelerar os existentes.
Centenas de milhões de pessoas agora estão usando ferramentas de IA generativas como o ChatGPT – também um modelo transformer – esperando respostas instantâneas.
Neste momento da IA do iPhone, o desempenho na inferência é vital. O deep learning agora está sendo implantado em quase todos os lugares, gerando uma necessidade insaciável de desempenho de inferência, desde o chão de fábrica até os sistemas de recomendação online.
GPUs L4 aceleram desde o início
NVIDIA L4 Tensor Core GPUs fizeram sua estreia nos testes MLPerf com mais de 3x a velocidade das GPUs T4 da geração anterior. Empacotados em um form factor de baixo perfil, esses aceleradores são projetados para oferecer alta taxa de transferência e baixa latência em praticamente qualquer servidor.
As GPUs L4 executaram todas as cargas de trabalho MLPerf. Graças ao seu suporte para o formato chave FP8, seus resultados foram particularmente impressionantes no modelo BERT com fome de desempenho.
Anunciados no GTC, esses aceleradores já estão disponíveis nos principais fabricantes de sistemas e provedores de serviços em nuvem. As L4 são a mais novas GPUs adicionadas ao portfólio de plataformas de inferência de IA da NVIDIA, lançadas no GTC.
“Com o avanço da IA generativa, os softwares disponibilizados pela NVIDIA estão auxiliando no desempenho e otimização das cargas de trabalho. É muito importante contribuirmos com essas tecnologias, principalmente para as grandes empresas do setor”, destaca Marcio Aguiar, Diretor da divisão Enterprise da NVIDIA para América Latina.
Software, Network brilham em teste de sistema
A plataforma full-stack IA da NVIDIA mostrou sua liderança em um novo teste MLPerf.
O chamado benchmark de divisão de network transmite dados para um servidor de inferência remoto. Ele reflete o cenário popular de usuários corporativos, executando trabalhos de IA na nuvem, com dados armazenados atrás de firewalls corporativos.
No BERT, os sistemas remotos NVIDIA DGX A100 forneceram até 96% de seu desempenho local máximo, em parte porque precisavam esperar que as CPUs concluíssem algumas tarefas. No teste ResNet-50 para visão computacional, tratado exclusivamente por GPUs, eles atingiram 100%.
Ambos os resultados se devem, em grande parte, à rede NVIDIA Quantum Infiniband, NVIDIA ConnectX SmartNICs e software como o NVIDIA GPUDirect.
Orin mostra ganhos de 3,2x no edge
Separadamente, o sistema em módulo NVIDIA Jetson AGX Orin apresentou ganhos de até 63% em eficiência energética e 81% em desempenho em comparação com seus resultados do ano anterior. O Jetson AGX Orin fornece inferência quando a IA é necessária em espaços restritos com baixos níveis de energia, inclusive em sistemas alimentados por baterias.
Um amplo ecossistema de IA da NVIDIA
Os resultados do MLPerf mostram que a NVIDIA AI é apoiada pelo ecossistema mais amplo do setor em deep learning.
Dez empresas apresentaram resultados na plataforma NVIDIA nesta rodada. Eles vieram do serviço de nuvem Microsoft Azure e fabricantes de sistemas, incluindo ASUS, Dell Technologies, GIGABYTE, H3C, Lenovo, Nettrix, Supermicro e xFusion.
O trabalho deles mostra que os usuários podem obter um ótimo desempenho com a NVIDIA AI tanto na nuvem quanto em servidores executados em seus próprios data centers.
Os parceiros da NVIDIA participam do MLPerf porque sabem que é uma ferramenta valiosa para clientes que avaliam plataformas e fornecedores de IA. Os resultados da última rodada demonstram que o desempenho que eles oferecem hoje crescerá com a plataforma NVIDIA.
Os usuários precisam de desempenho versátil
A NVIDIA AI é a única plataforma para executar todas as cargas de trabalho e cenários de inferência MLPerf em data center e computação de edge. Seu desempenho versátil e eficiência tornam os usuários verdadeiros vencedores.
Aplicações do mundo real geralmente empregam muitas redes neurais de diferentes tipos que precisam fornecer respostas em tempo real.
Por exemplo, uma aplicação de IA precisa entender a solicitação através da voz de um usuário, classificar uma imagem, fazer uma recomendação e, em seguida, entregar uma resposta como uma mensagem em voz humana. Cada etapa requer um tipo diferente de modelo de IA.
Os benchmarks MLPerf abrangem essas e outras cargas de trabalho populares de IA. É por isso que os testes garantem que os tomadores de decisão de TI obtenham um desempenho confiável e flexível para implantar.
Os usuários podem confiar nos resultados do MLPerf para tomar decisões de compra informadas, pois os testes são transparentes e objetivos. Os benchmarks contam com o apoio de um amplo grupo que inclui Arm, Baidu, Facebook AI, Google, Harvard, Intel, Microsoft, Stanford e a Universidade de Toronto.
Software que você pode usar
A camada de software da plataforma NVIDIA AI, NVIDIA AI Enterprise, garante que os usuários obtenham desempenho otimizado de seus investimentos em infraestrutura, bem como suporte, segurança e confiabilidade de nível empresarial necessários para executar IA no data center corporativo.
Todo o software usado para esses testes está disponível no repositório MLPerf, para que qualquer pessoa possa obter esses resultados de classe mundial.
As otimizações são continuamente agrupadas em contêineres disponíveis no NGC, o catálogo da NVIDIA para software acelerado por GPU. O catálogo hospeda o NVIDIA TensorRT, usado por todos os envios nesta rodada para otimizar a inferência de IA.