Влияние размера блока резьбы минимально.Это последняя оптимизация, которую я бы попробовал (и только если заполняемость ужасно плохая, класс Fermi имеет практически одинаковую производительность, когда заполняемость превышает 50% или около того).Если ваше ядро действительно плохое, то вы вообще не заметите никаких отличий.
Кроме того, вы можете запустить CUDA Visual Profiler для своего кода Matlab.С помощью кодирования GPU профилируйте все.
Выполните следующие шаги в настройке сеанса.
- в Launch укажите свой исполняемый файл Matlab.
- В рабочем каталоге выберите каталог вашего скрипта matlab
- в Аргументах: -nojvm -nosplash -r name_of_matlab_script (без .m)
При этом,из личного опыта, посмотрите, можете ли вы использовать текстурную память для кэширования.Даже если доступ к памяти не слит, вы, тем не менее, можете получить некоторые попадания в кэш из памяти.