Я все еще злюсь на эти матрицы неизвестного размера, которые могут варьироваться от 10 до 20 000 для каждого измерения.
Я смотрю на CUDA SDK и задаюсь вопросом: что, если я выберу слишком много блоков?
Что-то вроде сетки из 9999 x 9999 блоков в измерениях X и Y, если на моем оборудовании есть SM, которые не могут содержать все эти блоки, у ядра будут проблемы или производительность просто рухнет?
Я не знаю, как измерить в блоках / потоках что-то, что может сильно различаться ... Я думаю об использовании МАКСИМАЛЬНОГО числа блоков, которые поддерживает мое оборудование, и затем о том, чтобы потоки внутри них работали по всей матрице, это правильный путь?