Jump to content

Recommended Posts

Posted

Помогите пожалуйста 
 

 Проблема распределения ресурсов PCIe (Resizable BAR / Large BAR) на сервере Gigabyte G292-Z20 с 8x Radeon Pro VII.

Конфигурация:

Сервер: Gigabyte G292-Z20 (rev. 100).

Материнская плата: MZ22-G20, BIOS версии R23.

Процессор: AMD EPYC 7002 (Rome).

GPU: 8 x Radeon Pro VII 16GB (архитектура Vega 20 / gfx906).

ОС: Ubuntu 22.04

Суть проблемы:
Не удается расширить адресное пространство видеокарт (BAR) до номинальных 16 ГБ на каждую карту. В данный момент система выделяет картам стандартные 256 МБ. При попытке инициализации ROCm возникает нехватка ресурсов.

Что уже сделано в BIOS:

Включен Above 4G Decoding и IOMMU.

Режим загрузки — чистый UEFI (CSM отключен).

Топология выставлена в NPS1 (NUMA nodes per socket = 1) для объединения ресурсов.

Отключен SR-IOV.

В чем затык:
BIOS версии R23 довольно старый и не имеет явных настроек «MMIO High Base» или переключателя «Resizable BAR». Судя по логам, PCI-мосты (Bridge Windows) зажаты на уровне ~770 МБ, что физически не дает ядру Linux выделить окна по 16 ГБ для 8 видеокарт (требуется суммарно 128 ГБ адресного пространства). Стандартные параметры ядра pci=realloc не помогают или приводят к конфликтам с сетевыми интерфейсами (пропадание сети из-за переназначения шин).

Нужна помощь специалиста, который сможет:

Правильно сконфигурировать параметры загрузки ядра (pci=realloc, assign_busses и т.д.) так, чтобы карты получили 16 ГБ BAR, но при этом сохранилась работоспособность бортовых сетевых карт.

Проверить лимиты MMIO и, если необходимо, помочь с обновлением BIOS/VBIOS или правкой таблиц ресурсов через ОС.

.

Допоможіть будь ласка, сервер простаивает из-за невозможности корректно адресовать память видеокарт!

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...