У меня изначально есть рабочие единицы размером 11*11*6779
.Ради простоты я не хочу переводить это в 1D глобальный размер работы.Когда, когда я изменил его на 21*21*6779
, производительность 5-6x медленнее , чем раньше.насколько я знаю, код не имеет никакого отношения к числу запущенных потоков.
Объем передаваемых данных только 4x больше, что, я не думаю, является причиной того, почему программа работает медленнее, потому что я протестировал процесс выделения памяти.
Примечаниечто мое устройство имеет максимальное количество рабочих элементов 256*256*256
, то есть я буду использовать половину всех доступных рабочих элементов, и это не выделенное устройство (также используется для отображения ..).
Интересно,установка размеров рабочего элемента в 21*21*6779
использует слишком много моих рабочих элементов, или размеры просто неудобны для настройки openCL?