Aller au contenu principal

Attacher des GPU à son cluster

info

Les GPU (GPU) sont des ressources Cloud utilisées pour le rendu graphique et les calculs parallèles lourds.

NumSpot offre la possibilité de déployer des GPU et de les attacher aux workers de votre cluster et ainsi profiter des avantages des GPU pour vos applicatifs.

Ce qu'il faut savoir avant d'attacher des GPU à vos clusters

Modèles de GPU

NumSpot fournit différents modèles de GPU pour vos clusters, avec différentes quantités de RAM vidéo (VRAM) :

Modèle de GPUVRAM du GPU (en Mio)Nombre maximum de vCoresQuantité maximum de mémoire (en Gio)Générations de processeur compatiblesRégions
nvidia-a100-808000035256v6eu-west-2
cloudgouv-eu-west-1
nvidia-p61600080512v5eu-west-2
cloudgouv-eu-west-1

La disponibilité des GPU

Aujourd'hui, nous rencontrons des problèmes au niveau de la disponibilité des GPU sur les différentes zones des régions mise à votre disposition. Il se peut qu'un modèle de GPU ne soit plus disponible sur une zone. Dans ce cas là, veuillez réssayer sur une autre zone.

Création d'un NodePool avec GPU

L'ajout de GPU se fait au niveau de la création d'un NodePool, et donc à deux endroits différents:

  • Lors de la création d'un cluster et de son premier NodePool (OpenShift > Créer un cluster > Créer un nodepool) Create un cluster Openshift avec GPU - Page
  • Lors de l'ajout d'un NodePool à un cluster existant (OpenShift > [clusterID] > Nodepools > Créer) Ajouter un nodepool avec GPU - Page
info

À noter que l'utilisation des GPU dans votre cluster n'est pas possible sur des noeuds ayant le profil "SMALL"

Configuration de votre cluster pour utiliser les GPU

Lorsque vous avez créé votre cluster avec des GPU, il vous reste une dernière étape pour pouvoir les utiliser au sein de votre cluster. Celle-ci consiste à créer une ClusterPolicy afin de définir les configurations pour l'installation et l'intégration des composants nécessaires pour exploiter les GPU Nvidia déployés sur votre cluster Openshift.

Avant de procéder, assurez-vous d'avoir vos accès à la console OpenShift avec des droits admin sur le cluster.

Ensuite, suivez les étapes suivantes pour créer la resource ClusterPolicy: 1- Dans le menu latéral, sélectionnez Opérateurs > Opérateurs installés, puis cliquez sur NVIDIA GPU Operator. 2- Sélectionnez l'onglet ClusterPolicy, puis cliquez sur Create ClusterPolicy. La plate-forme attribue le nom par défaut gpu-cluster-policy.

info

Vous pouvez utiliser cet écran pour personnaliser la ClusterPolicy, mais les valeurs par défaut sont suffisantes pour configurer et faire fonctionner le GPU.

3- Appuyez sur le bouton Create

À ce stade, l'opérateur GPU procède à l'installation de tous les composants requis pour utiliser les GPU NVIDIA dans votre cluster OpenShift. Attendez au moins 10 à 20 minutes avant d'approfondir toute forme de dépannage, car cette opération peut prendre un certain temps.

4- Le statut de la nouvelle ClusterPolicy déployée pour l'opérateur GPU NVIDIA passe à State:ready lorsque l'installation réussit: Create un cluster Openshift avec GPU - Page

Utilisation des GPU dans votre cluster

Votre cluster est enfin prêt pour utiliser les GPU. Pour ce faire il suffit d'ajouter le bloc suivant dans le manifest de vos applications nécissitant un gpu:

spec:
containers:
- resources:
limits:
nvidia.com/gpu: 1