Я подозреваю, что это проблема. Из предстоящего документа NVIDIA:
Графические процессоры NVIDIA предназначены для использования всех преимуществ стандарта PCI-e Gen2, включая одноранговую связь, но набор микросхем IOH не поддерживает полную спецификацию PCI-e Gen2 для связи P2P с другими чипсетами IOH
Вызов API cudaPeerEnable () вернет код ошибки, если приложение попытается установить P2P-связь между двумя графическими процессорами, которая потребует P2P-связи через QPI. Функция cudaMemcopy () для прямых передач P2P автоматически переключается на использование пути от устройства к хосту к устройству, но для прямого доступа P2P нет автоматического возврата (инструкции по загрузке / сохранению P2P в коде устройства).
Одной из известных систем примера является рабочая станция HP Z800 с двумя наборами микросхем IOH, которая может работать на примере simpleP2P, но пропускная способность очень низкая (100 с МБ / с вместо нескольких ГБ / с) из-за запасного пути.
NVIDIA изучает возможность поддержки графического процессора P2P через QPI путем добавления функциональности в будущие архитектуры графических процессоров.
Ссылка: Таблица наборов микросхем Intel® 5520 и наборов микросхем Intel® 5500, таблица 7-4: Декодирование адреса входящей памяти:
«IOH не поддерживает несмежные байтовые разрешения от PCI Express для удаленных одноранговых транзакций MMIO. Это дополнительное ограничение в отношении требований стандарта PCI Express для предотвращения несовместимости с Intel QuickPath Interconnect ». - http://www.intel.com/Assets/PDF/datasheet/321328.pdf
Как правило, мы советуем создавать рабочие станции и кластеры с несколькими графическими процессорами, в которых все PCI-Express-слоты предназначены для графических процессоров, подключенных к одному IOH.