Вы должны задать себе два вопроса
- сколько у меня процессоров?
- в какой процент времени полезная программа будет обращаться к той же карте?
В первом вопросе указано максимальное количество потоков, которые могут получить доступ к карте одновременно. У вас может быть 10000 потоков, но если у вас только 4 процессора, максимум 4 будут запущены одновременно.
Второй вопрос говорит вам, что большинство из этих потоков будут иметь доступ к карте и делать что-то полезное. Вы можете оптимизировать карту, чтобы сделать что-то бесполезное (например, микро-тест), но нет смысла настраивать это ИМХО. Скажем, у вас есть полезная программа, которая много использует карту. Это может быть 90% времени, занимаясь чем-то другим, например IO, доступ к другим картам, создание ключей или значений, выполнение действий со значениями, полученными с карты.
Допустим, вы тратите 10% времени на доступ к карте на машине с 4 процессорами. Это означает, что в среднем вы будете получать доступ к карте в среднем в 0,4 потоках. (Или один поток примерно в 40% случаев). В этом случае уровень параллелизма 1-4 подходит.
В любом случае, повышение уровня параллелизма по сравнению с числом имеющихся у вас процессоров может оказаться ненужным даже для микропроцессора.