Question

Я пытаюсь реализовать реализацию GEMM с помощью AMD-APP-SDK 2.4 на карте ATI HD 6990 (архитектура Cayman).

Одним из методов оптимизации является использование блокировки / тайлинга.

В своей реализации, быстрее ли мы сохраняем субматрицы в общей локальной памяти или быстрее, когда мы используем кеш текстур? Если возможно, укажите причину.

Пожалуйста, предложите, что легче реализовать.

Спасибо.

P.S. Я хочу это только для одинарной точности, если это имеет значение!

Примечание: размер подматрицы не является проблемой, однако я чувствую, что чем больше, тем лучше. Единственный фактор, который следует принимать во внимание, это то, что если единица памяти 128 бит (4 одинарной точности), то размер блока должен быть кратным 4.

user57368 · Answer 1 · 17 июня 2011

Чипы Cypress использовались в Radeon серии 5800.В серии 6900 используется ядро Cayman , в котором есть несколько важных отличий, особенно в том, что это архитектура VLIW4 вместо конфигурации VLIW5, используемой в более ранних ядрах.

Как всегда, единственный определяющий факторЧтобы узнать, какой метод быстрее, нужно сравнить его.В частности, поскольку вы не предоставляете информацию о размере подматриц, трудно сказать, где они лучше всего подойдут.

Локальное хранилище данных и текстурный кеш в Cayman Architecture для научных вычислений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Локальное хранилище данных и текстурный кеш в Cayman Architecture для научных вычислений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы