Разъяснение количества асинхронных двигателей в архитектуре Тьюринга - PullRequest
0 голосов
/ 11 февраля 2020

Сценарий состоит в том, что мне известен механизм параллельного копирования и выполнения, введенный еще в Fermi и дополнительно усовершенствованный в более поздних архитектурах, описанный в Руководстве по оптимальной практике CUDA C ++:

Современные графические процессоры могут одновременно обрабатывать асинхронные передачи данных и выполнять ядра. Графические процессоры с одним механизмом копирования могут выполнять одну асинхронную передачу данных и выполнять ядра, тогда как графические процессоры с двумя механизмами копирования могут одновременно выполнять одну асинхронную передачу данных с хоста на устройство, одну асинхронную передачу данных с устройства на хост и выполнять ядра. Количество механизмов копирования в графическом процессоре задается полем asyncEngineCount структуры cudaDeviceProp, которая также указана в выходных данных примера deviceQuery CUDA.

Когда я выполняю образец deviceQuery CUDA 10.0 на графических процессорах Turing (RTX 2080Ti и RTX 2080 SUPER) показывает asyncEngineCount, равный 3 .

Я могу только представить, что с двумя механизмами копирования ядро ​​может работать одновременно наряду с H2D, а также копиями D2H (всего 3 одновременных операции). Итак, какова функция третьего движка в графических процессорах Тьюринга?

1 Ответ

3 голосов
/ 12 февраля 2020

На этот вопрос можно ответить одним словом, если StackOverflow разрешил следующее: NVLink .

Например, с двумя картами, подключенными через NVLink, механизм дополнительного копирования на одну карту позволяет выполнять двунаправленные одноранговые копии через NVLink с полной пропускной способностью, в дополнение к полной передаче полосы пропускания устройством <-> устройства.

При использовании более двух карт не все ссылки могут быть насыщены при в то же время только с тремя механизмами копирования на карту. Однако с увеличением количества ссылок становится все менее вероятным, что все ссылки будут использоваться одновременно, поскольку эта схема быстро исчерпает пропускную способность памяти хоста.

...