Я пытаюсь ускорить это приложение поиска в базе данных с помощью CUDA, и я работаю над запуском основного алгоритма параллельно с CUDA.
В одном тесте я запускаю алгоритм параллельно через цифровойпоследовательность размером 5000 с 500 блоками на сетку и 100 нитями на блок и возвращалась со временем прогона примерно 500 мс.
Затем я увеличил размер цифровой последовательности до 8192 со 128 блоками на сетку и 64потоков на блок и каким-то образом возвращался с результатом 350 мс для запуска алгоритма.
Это будет указывать, что количество используемых блоков и потоков и их взаимосвязь влияют на производительность.
У меня вопрос, как определить количество блоков / сетки и потоков / блоков?
Ниже приведены мои спецификации графического процессора из стандартной программы запросов устройств: