Я провел много экспериментов для разных размеров примера умножения матриц OpenCL, используя разные конфигурации Block Size и SIMD Work Group на FPGA.Результаты показывают, что время выполнения уменьшается относительно размера блока, но не уменьшается относительно размера SIMD.
Мне интересно, почему размер блока влияет и уменьшает время выполнения, в то время как рабочая группа SIMD не влияет на время выполнения?