Einführung
Dieses Tutorial erklärt wie man Multi-instance GPU (MIG) gemäß der Voraussetzungen aus der offiziellen MIG-Dokumentation aktiviert.
Voraussetzungen
- Einen Server mit:
- Ubuntu 24.04
- Eine GPU die MIG unterstützt (siehe offizielle Liste (EN))
- Zugriff zum Root-Benutzer oder einem Benutzer mit sudo-Rechten
- Einen NVIDIA-Account für das NVIDIA Display Mode Selector Tool
Schritt 1 - Voraussetzungen installieren
Du kannst den offiziellen Konfigurator verwenden, um für dein System zu prüfen mit welchen Befehlen das NVIDIA CUDA Toolkit heruntergeladen und das lokale Repository installiert werden kann.
Folgend werden die Befehle erklärt, die auf Ubuntu 24.04 mit x86_64 und deb (local) benötigt werden.
- Aktualisiere das System und installiere Linux Kernel Header
sudo apt update sudo apt install linux-headers-generic
- Lade die APT-Pinning-Datei und das CUDA-Repository herunter
wget -O cuda.pin https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin wget -O cuda.deb https://developer.download.nvidia.com/compute/cuda/13.2.1/local_installers/cuda-repo-ubuntu2404-13-2-local_13.2.1-595.58.03-1_amd64.deb sudo mv cuda.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo cp /var/cuda-repo-ubuntu2404-13-2-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo dpkg -i cuda.deb
- Installiere das NVIDIA CUDA Toolkit und den NVIDIA Driver open kernel module flavor:
Die Installation dauert einige Minuten.
sudo apt-get update sudo apt-get -y install cuda-toolkit-13-2 sudo apt-get install -y nvidia-open reboot
- Nach dem Neustart, prüfe ob alles wie erwartet installiert wurde:
Es sollte die Driver-Version angezeigt werden.
nvidia-smi --query-gpu=driver_version --format=csv,noheader
Wenn ein Fehler angezeigt wird, kann es sein, dass der Driver nicht richtig geladen wurde.
Step 2 - NVIDIA Display Mode Selector Tool einrichten
Vor dem nächsten Schritt muss die Display Mode Selector Tool-Datei von NVIDIA heruntergeladen werden. Dafür wird ein Account benötigt. Weitere Informationen findest du in der offiziellen NVIDIA-Dokumentation.
Nachdem die ZIP-Datei heruntergeladen wurde (z.B. NVIDIA-Display-Mode-Selector-Tool-1.72.0-July25.zip) kopiere sie auf den Server und entpacke sie, wie folgend erklärt.
- Wenn die ZIP-Datei auf dem lokalen Gerät ist, kopiere diese auf den Server und verbinde dich anschließend mit dem Server:
Die ZIP-Datei sollte nun im Hauptverzeichnis liegen.
scp NVIDIA-Display-Mode-Selector-Tool-1.72.0-July25.zip user@<ip_address>:~/ ssh user@<ip_address>
-
Verschiebe die ZIP-Datei auf dem Server in einen neuen Ordner und entpacke die Datei:
mkdir ~/displaymodeselector && cd ~/displaymodeselector mv ~/NVIDIA-Display-Mode-Selector-Tool-1.72.0-July25.zip ~/displaymodeselector unzip NVIDIA-Display-Mode-Selector-Tool-1.72.0-July25.zipDer entpackte Ordner sollte eine Datei namens
displaymodeselectorenthalten. Der Einfachheit halber kann die Datei direkt in das Verzeichnis~/displaymodeselectorverschoben werden.cp "NVIDIA Display Mode Selector Tool - 1.72.0-July25/linux/x64/displaymodeselector" .
- Der Ordner sollte jetzt folgende Dateien enthalten:
holu@example:~/displaymodeselector$ ls -al -rw-rw-r-- displaymodeselector drwxrwxr-x __MACOSX drwx------ 'NVIDIA Display Mode Selector Tool - 1.72.0-July25' -rwxrwxr-x NVIDIA-Display-Mode-Selector-Tool-1.72.0-July25.zip
- Mache
displaymodeselectorausführbar und prüfe die Version, um zu bestätigen, dass es funktioniertIm Output sollte etwas wiechmod +x displaymodeselector sudo ./displaymodeselector --versionNVIDIA Display Mode Selector Utility (Version #.##.#)angegeben werden.
Step 3 - GPU-Modus ändern
Für MIG muss der Display-Modus auf compute gesetzt werden.
- Zeige den aktuellen Display-Modus an
Im Output wird vermutlich etwas wie
nvidia-smi -i 0 --query-gpu=pci.bus_id,mig.mode.current --format=csv[N/A]angegeben.
- Setze den Display-Modus auf "compute" und führe einen Neustart durch:
Warte 5 Minuten bevor du den Server wieder startest.
sudo ./displaymodeselector --gpumode compute --auto sudo poweroff
- Nach dem Neustart, zeige den neuen Display-Modus an:
Im Output sollte nun
nvidia-smi -i 0 --query-gpu=pci.bus_id,mig.mode.current --format=csvDisabledangegeben werden.
Step 4 - MIG aktivieren
Nun da die Voraussetzungen erfüllt sind, kann Multi-Instance GPU (MIG) aktiviert werden.
- Prüfe den GPU-Status vor der Änderung:
nvidia-smi
- Aktiviere MIG:
Der Output sollte
nvidia-smi -i 0 -mig 1Enabled MIG Modeenthalten.
- Prüfe den GPU-Status, die Kernel-Version und die GPU vBIOS-Version:
Der Output sollte "MIG devices" enthalten. Wenn du eine RTX PRO 6000 Blackwell GPU hast, vergleiche deine vBIOS-Version mit der Mindestanforderung, die in der NVIDIA-Dokumentation angegeben ist.
nvidia-smi uname -r nvidia-smi --query-gpu=vbios_version --format=csv
Ergebnis
Multi-Instance GPU (MIG) sollte nun auf dem System aktiviert sein und du kannst wie in der offiziellen Dokumentation erklärt GPU-Instanzen erstellen und verwalten: