Question

GeForce GTX 560 Ti имеет 8 SM, а каждый SM имеет 48 ядер cuda (SP).Я собираюсь запустить ядро следующим образом: kernel <<< 1024,1024 >>> SM планирует потоки в группах из 32 параллельных потоков, называемых варпами.Как блоки и потоки будут распределены между 8 SM и 48 SP в каждом SM?У нас есть 1024 блока и 1024 потока, так что, каков возможный сценарий?Какое максимальное количество потоков выполняется буквально одновременно?В чем разница между планировщиком Fermi Dual Warp и более ранними планировщиками?

talonmies · Answer 1 · 16 августа 2011

Предоставляемая NVIDIA электронная таблица калькулятора занятости, которая поставляется в каждом SDK или доступна для загрузки здесь , может дать ответ на первые три «подвопроса», которые вы задали.

Что касается различий между планированием на уровне нескольких процессоров в Fermi по сравнению с более ранними архитектурами, то имя («планировщик с двумя деформациями») действительно говорит само за себя.В Fermi члены парламента удаляют инструкции из двух варпов одновременно, по сравнению с одним варпом, как это было в первых двух поколениях архитектур с поддержкой CUDA.Если вам нужен более подробный ответ, я рекомендую ознакомиться с техническим документом Fermi, который доступен для скачивания здесь .

рабочий процесс cuda - возможный сценарий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

рабочий процесс cuda - возможный сценарий

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов