Я пытаюсь реализовать реализацию GEMM с помощью AMD-APP-SDK 2.4 на карте ATI HD 6990 (архитектура Cayman).
Одним из методов оптимизации является использование блокировки / тайлинга.
В своей реализации, быстрее ли мы сохраняем субматрицы в общей локальной памяти или быстрее, когда мы используем кеш текстур? Если возможно, укажите причину.
Пожалуйста, предложите, что легче реализовать.
Спасибо.
P.S. Я хочу это только для одинарной точности, если это имеет значение!
Примечание: размер подматрицы не является проблемой, однако я чувствую, что чем больше, тем лучше. Единственный фактор, который следует принимать во внимание, это то, что если единица памяти 128 бит (4 одинарной точности), то размер блока должен быть кратным 4.