Предоставляемая NVIDIA электронная таблица калькулятора занятости, которая поставляется в каждом SDK или доступна для загрузки здесь , может дать ответ на первые три «подвопроса», которые вы задали.
Что касается различий между планированием на уровне нескольких процессоров в Fermi по сравнению с более ранними архитектурами, то имя («планировщик с двумя деформациями») действительно говорит само за себя.В Fermi члены парламента удаляют инструкции из двух варпов одновременно, по сравнению с одним варпом, как это было в первых двух поколениях архитектур с поддержкой CUDA.Если вам нужен более подробный ответ, я рекомендую ознакомиться с техническим документом Fermi, который доступен для скачивания здесь .