Я собираюсь сделать те же предположения, что и вы:
Blocks: Number of workgroups
Thread: Number of threads
Points: Some metric of work per thread
Более важно установить правильный размер рабочей группы , а не количество рабочих групп. Вам нужно, чтобы размер группы был минимум шириной SIMD, которая обычно составляет 32 на большинстве графических процессоров. Таким образом, блоки должны быть установлены в Threads / 32.
Для «очков». Это будет зависеть от того, сколько работы выполнено на «cal c». Создание рабочей группы связано с накладными расходами, поэтому вы хотите, чтобы у каждого потока было достаточно работы. По опыту обычно хватает ~ 16 инструкций. Но если вы не видите код ядра, вам просто нужно поэкспериментировать.
В итоге:
- Установите «Баллы» так, чтобы у вас было не менее 2304 потоков для работа, которая вам нужна
- Установить блоки на потоки / 32
Все это предполагает, что у вас есть как минимум 2304 рабочих элемента, иначе вы не полностью используете свое оборудование.