GTX 580 может иметь одновременно 16 * 48 одновременных деформаций (по 32 потока).Это 16 мультипроцессоров (SM) * 48 резидентных деформаций на SM * 32 потока на деформацию = 24 576 потоков.
Не путайте параллелизм и пропускную способность.Число выше - это максимальное количество потоков, ресурсы которых могут храниться на кристалле одновременно, - число, которое может быть резидентным .В терминах CUDA мы также называем эту максимальную занятость .Аппаратное обеспечение постоянно переключается между перекосами, чтобы помочь скрыть или «скрыть» (большую) задержку обращений к памяти, а также (небольшую) задержку арифметических конвейеров.
Хотя каждый SM может иметь 48 резидентных деформаций, он может выдавать инструкции только из небольшого числа (в среднем от 1 до 2 для GTX 580, но это зависит от комбинации команд программы) деформаций в каждом такте,
Таким образом, вам, вероятно, лучше сравнить пропускную способность, которая определяется доступными исполнительными блоками и способностью оборудования выполнять несколько задач.На GTX580 имеется 512 исполнительных блоков FMA, но также целочисленные, специальные функциональные блоки, блоки памяти и т. Д., Которые могут быть выпущены двумя способами (т.е. выдают независимые инструкции из двух деформаций одновременно) в различных комбинациях.
Однако принять во внимание все вышесказанное слишком сложно, поэтому большинство людей сравнивают по двум показателям:
- Пик GFLOP / с (который для GTX 580 составляет 512 единиц FMA *2 флопа в FMA * 1544e6 циклов / с = 1581,1 GFLOP / с (одинарная точность)
- Измеренная пропускная способность в интересующем вас приложении.
Наиболее важныйСравнение всегда измеряется временем настенных часов в реальном приложении.