NVIDIA DGX-1 / DGX-2 Wartung — Bridge-Service für ältere DGX-Generationen
Wir warten ältere NVIDIA DGX-Plattformen (DGX-1 mit Pascal P100 oder Volta V100, DGX-2 mit 16x V100 und NVSwitch) als Bridge-Service bis zur Refresh-Strategie. Mit Refurbishing-Pools für die wichtigsten Komponenten (V100-GPU-Boards, Power Supplies, NVSwitch-Module) und SLA bis 24×7×4. Wichtige Ehrlichkeit: DGX-Hardware ist proprietär (NVLink, NVSwitch, NVIDIA-Power-Delivery), Komponenten-Verfügbarkeit für DGX-1/-2 ist heute strukturell schwach. Bei sehr alten Beständen ist Refresh zu DGX A100/H100 oft die wirtschaftlichere Option als TPM-Bridge — wir machen das im Risiko-Assessment vor Vertragsabschluss transparent.
Welche DGX Legacy-Modelle wir warten
DGX-1 war NVIDIAs erste Generation kompletter AI-Trainings-Server (Markteintritt April 2016 mit Pascal P100, Refresh 2017-2019 mit Volta V100). DGX-2 erweiterte das Konzept (Markteintritt 2018) mit 16 V100-GPUs und der ersten Generation des NVSwitch-Interconnects. Beide Linien sind technisch noch nutzbar für AI-Inference und kleinere Training-Workloads, aber für moderne LLM-Training oder MoE-Modelle nicht mehr leistungsstark genug.
Warum (oder warum nicht) TPM für DGX-1 / DGX-2
DGX-1/-2-Wartung ist nicht trivial. Im Unterschied zu Standard-Server-EOSL (Supermicro X9, F5 s-Serie, etc.) ist DGX-Hardware proprietär — NVLink, NVSwitch, P100/V100-GPU-Boards mit NVIDIA-spezifischer Firmware. Refurbishing-Pools für DGX-1/-2 sind strukturell dünner als bei Standard-Servern, und einige kritische Komponenten (NVSwitch Gen 1, frühe V100-Boards) sind am freien Markt knapp verfügbar. NVIDIA bietet Standard-Support für DGX-1/-2 nur noch eingeschränkt oder gar nicht mehr — wer hier bleibt, hat oft keine OEM-Service-Option. TPM ist eine Bridge-Service-Lösung mit klaren Risiko-Disclosures.
Wir empfehlen DGX-1/-2-TPM in zwei Szenarien: (1) AI-Inference-Workloads, die nicht zwingend State-of-the-Art-Hardware brauchen — DGX-1/-2 sind technisch noch nutzbar für viele Inference-Use-Cases, TPM verlängert die produktive Lebensdauer wirtschaftlich. (2) Bridge-Service zwischen DGX-1/-2-EOSL und einer geplanten Refresh-Phase auf DGX H100/H200 oder GB200 — TPM überbrückt typisch 6-18 Monate bis die Refresh-Hardware verfügbar und installiert ist. Bei sehr kritischen produktiven AI-Trainings-Workloads auf DGX-1/-2 empfehlen wir Refresh statt TPM-Bridge — moderne DGX-Generationen sind 10-50x leistungsstärker und energieeffizienter. Wir sind ehrlich darüber im Risiko-Assessment.
Generations-Timeline & TPM-Abdeckung
Pro Hardware-Generation: Hersteller-Phase (Slate) und TechCare-Coverage-Window (Teal) bis ~5 Jahre nach OEM-EOSL.
- DGX-1 (Pascal, 8x P100)2016–2023TPM bis2028+Empfohlen
- DGX-1 (Volta, 8x V100 16GB)2017–2024TPM bis2029+Empfohlen
- DGX-1 (Volta, 8x V100 32GB)2018–2024TPM bis2029+Empfohlen
- DGX-2 (16x V100, NVSwitch Gen 1)2018–2025TPM bis2030+Empfohlen
EOSL-Status der DGX Legacy-Generationen
DGX-1 und DGX-2 sind komplett EOSL erreicht. NVIDIA-Werksgarantie ist für alle Konfigurationen ausgelaufen, Standard-Support nur noch eingeschränkt verfügbar.
| Modellfamilie | Markteinführung | OEM-Support endet | TPM-Status |
|---|---|---|---|
| DGX-1 (Pascal, 8x P100) | 2016 | 2022–2023 | Empfohlen |
| DGX-1 (Volta, 8x V100 16GB) | 2017 | 2023–2024 | Empfohlen |
| DGX-1 (Volta, 8x V100 32GB) | 2018 | 2024 | Empfohlen |
| DGX-2 (16x V100, NVSwitch Gen 1) | 2018 | 2024–2025 | Empfohlen |
Stand: 2026. EOSL-Daten basieren auf offiziellen Hersteller-Roadmaps und können sich ändern. Verbindliche Auskunft im Einzelfall auf Anfrage.
Was wir konkret leisten
Original-Komponenten
Eigenes Lager und zertifizierte Refurbishing-Quellen für DGX und Mellanox.
DGX-Spezialist-Engineer
Deutschsprachige Techniker mit NVLink/NVSwitch-Training, 4-Stunden-Reaktionszeit garantiert.
Flexible SLA pro System
Parts Only, 5×9 NBD oder 24×7×4 — frei kombinierbar je nach Standort und Kritikalität.
Multi-Vendor-Vertrag
Ein Vertrag für DGX, Mellanox und alle anderen Hersteller. Konsolidierung AI-Cluster-Stack.
Risiko-Assessment
Komponenten-Pool-Status pro Modell vor Vertragsabschluss — ehrlicher Disclosure.
CUDA & AI-Software bleiben
CUDA, AI Enterprise, Base Command Manager unabhängig von Hardware-Wartung.