ровно пятая часть H100
flant_ru
Есть классический сценарий: поставили плагин, всё взлетело, выдохнули. А через месяц в кластере уже три мира:
• продовый инференс, который не терпит сюрпризов;
• обучение, требующее gang scheduling;
• CI‑задачи, которым нужна «ровно пятая часть H100».
И начинается магия: лейблы, nodeAffinity, перезапуски DaemonSet’ов и вопрос «А кто сегодня обновлял драйвер?».
В статье разбираем, почему device plugin честно отработал свою эпоху, но уже не тянет современную AI‑инфраструктуру, и как DRA пытается навести порядок без «второго Kubernetes».
Читайте, если тоже хотите управлять GPU, а не тушить пожары.
Откликнуться
Опубликовано: 2026-04-10