Parte 2: Como medir sua utilização da GPU

Como medir suas abordagens tradicionais de monitoramento de GPU da utilização da GPU, como o NVIDIA-SMI, fornecem instantâneos de utilização no tempo, mas não conseguem capturar as idéias estratégicas necessárias para otimização. O monitoramento eficaz da utilização da GPU requer uma abordagem multidimensional que se integra à orquestração de Kubernetes e fornece informações específicas da carga de trabalho. Integração DCGM com Kubernetes O gerenciador de GPU do NVIDIA Data Center (DCGM) fornece a base para o monitoramento abrangente da GPU em ambientes Kubernetes. Quando integrado às métricas CadVisor e Kubernetes, o DCGM permite a visibilidade em todo o cluster nos padrões de utilização da GPU em diferentes tipos de carga de trabalho. O operador da GPU da NVIDIA simplifica a implantação e o gerenciamento do DCGM em clusters Kubernetes, fornecendo instalação e configuração automatizadas dos componentes de monitoramento da GPU. Essa abordagem baseada em operador garante monitoramento consistente entre nós, integrando a infraestrutura de observabilidade do Kubernetes existente. As principais métricas para o monitoramento estratégico de GPU incluem: Utilização da GPU Porcentagem: Utilização real de computação vs. Utilização da memória de capacidade alocada: Uso da memória da GPU vs. Relatiografia de Memória GPU Diferente Diferente, se o rastreamento de Relationsation de Relationsation Setentation é que o Raturgo de Relationseation é o que é o melhor que o gPUs é o que se utina de gpus, que recebe o melhor, o que é o melhor, o gpus é o que recebe, o gpus está recebendo o que é o melhor que o trabalho de realização de gPUs. dimensões. Uma GPU pode mostrar a utilização de memória de 90%, obtendo apenas 30% de utilização de computação, indicando potencial para compartilhamento de recursos ou otimização da carga de trabalho. Enquanto o carregamento de um modelo na memória da GPU faz com que ele consuma VRAM, investigar a utilização da GPU mostra que a carga de trabalho nunca é interagida com – cargas de trabalho como essas podem ser reduzidas com segurança para 1 ou 2 réplicas (onde cada réplica usa 1 dispositivo GPU). Memória vs. Padrões de utilização de computação: alta memória, baixa computação: modelos grandes com solicitações de inferência pouco frequentes de alta memória, baixa memória: modelos pequenos com alta solicitação de rendimento de baixa memória, baixa computação: odios ou cargas de trabalho mal otimizadas e altas oportunidades de manutenção, altas carregamentos de trabalho. A visibilidade e as tendências em todo o cluster, o monitoramento estratégico da GPU deve se estender além das cargas de trabalho individuais para fornecer informações em todo o cluster sobre padrões de utilização, tendências e oportunidades de otimização. Isso inclui: Distribuição de utilização: quais cargas de trabalho e equipes estão impulsionando padrões temporais de consumo de GPU: tempos de pico de uso e períodos ociosos que permitem uma melhor atribuição de custos de agendamento: mapeamento de uso da GPU para equipes, projetos ou oportunidades de otimização de centers específicos: identificar recursos subutilizados e possibilidades de compartilhamento

Fonte

Você pode ter perdido