Нет реалистичного ограничения на количество потоков, которые вы можете создать (не менее 1000).Тем не менее, существует ограничение на количество потоков, которые вы можете эффективно использовать для достижения параллелизма.
В Fermi архитектура поддерживает одновременные 16-сторонние запуски ядра, но существует только одно соединение хоста с GPU,Таким образом, даже если у вас есть 16 потоков CUDA, они в конечном итоге попадут в одну очередь HW.Это может создать ложные зависимости данных и ограничить количество параллелизма, которое можно легко получить.
В Kepler количество соединений между хостом и графическим процессором теперь составляет 32 (вместо одного с Fermi).С новой технологией Hyper-Q теперь гораздо проще загружать графический процессор параллельной работой.