Локальное хранилище данных и текстурный кеш в Cayman Architecture для научных вычислений - PullRequest
2 голосов
/ 17 июня 2011

Я пытаюсь реализовать реализацию GEMM с помощью AMD-APP-SDK 2.4 на карте ATI HD 6990 (архитектура Cayman).

Одним из методов оптимизации является использование блокировки / тайлинга.

В своей реализации, быстрее ли мы сохраняем субматрицы в общей локальной памяти или быстрее, когда мы используем кеш текстур? Если возможно, укажите причину.

Пожалуйста, предложите, что легче реализовать.

Спасибо.

P.S. Я хочу это только для одинарной точности, если это имеет значение!

Примечание: размер подматрицы не является проблемой, однако я чувствую, что чем больше, тем лучше. Единственный фактор, который следует принимать во внимание, это то, что если единица памяти 128 бит (4 одинарной точности), то размер блока должен быть кратным 4.

1 Ответ

1 голос
/ 17 июня 2011

Чипы Cypress использовались в Radeon серии 5800.В серии 6900 используется ядро ​​ Cayman , в котором есть несколько важных отличий, особенно в том, что это архитектура VLIW4 вместо конфигурации VLIW5, используемой в более ранних ядрах.

Как всегда, единственный определяющий факторЧтобы узнать, какой метод быстрее, нужно сравнить его.В частности, поскольку вы не предоставляете информацию о размере подматриц, трудно сказать, где они лучше всего подойдут.

...