Помогите пожалуйста
Проблема распределения ресурсов PCIe (Resizable BAR / Large BAR) на сервере Gigabyte G292-Z20 с 8x Radeon Pro VII.
Конфигурация:
Сервер: Gigabyte G292-Z20 (rev. 100).
Материнская плата: MZ22-G20, BIOS версии R23.
Процессор: AMD EPYC 7002 (Rome).
GPU: 8 x Radeon Pro VII 16GB (архитектура Vega 20 / gfx906).
ОС: Ubuntu 22.04
Суть проблемы:
Не удается расширить адресное пространство видеокарт (BAR) до номинальных 16 ГБ на каждую карту. В данный момент система выделяет картам стандартные 256 МБ. При попытке инициализации ROCm возникает нехватка ресурсов.
Что уже сделано в BIOS:
Включен Above 4G Decoding и IOMMU.
Режим загрузки — чистый UEFI (CSM отключен).
Топология выставлена в NPS1 (NUMA nodes per socket = 1) для объединения ресурсов.
Отключен SR-IOV.
В чем затык:
BIOS версии R23 довольно старый и не имеет явных настроек «MMIO High Base» или переключателя «Resizable BAR». Судя по логам, PCI-мосты (Bridge Windows) зажаты на уровне ~770 МБ, что физически не дает ядру Linux выделить окна по 16 ГБ для 8 видеокарт (требуется суммарно 128 ГБ адресного пространства). Стандартные параметры ядра pci=realloc не помогают или приводят к конфликтам с сетевыми интерфейсами (пропадание сети из-за переназначения шин).
Нужна помощь специалиста, который сможет:
Правильно сконфигурировать параметры загрузки ядра (pci=realloc, assign_busses и т.д.) так, чтобы карты получили 16 ГБ BAR, но при этом сохранилась работоспособность бортовых сетевых карт.
Проверить лимиты MMIO и, если необходимо, помочь с обновлением BIOS/VBIOS или правкой таблиц ресурсов через ОС.
.
Допоможіть будь ласка, сервер простаивает из-за невозможности корректно адресовать память видеокарт!