Я прибегаю к точечному продукту, чтобы улучшить производительность OpenCL вместо безумного, но у меня плохая производительность. В случае с mad время выполнения ядра в моем проекте составляет 58 мс (среднее, многократное тестирование, на руке Gli Bifrost). И 68мс с точечным произведением. Поэтому, если у вас есть другое заключение, пожалуйста, приложите его.