Question

Возможно ли повысить производительность, запустив графический процессор для алгоритма со следующими свойствами:

Существуют сотни и даже тысячи независимых потоков, которые не требуют синхронизации во время вычислений
Каждый поток имеет относительно небольшую (менее 200 КБ) область локальной памяти, содержащую данные, специфичные для потока. Чтение / запись
Каждый поток обращается к большому блоку памяти (сотни мегабайт и даже гигабайт). Эта память доступна только для чтения
Для каждого доступа к глобальной памяти будет как минимум два доступа к локальной памяти
В алгоритме будет много веток

К сожалению, алгоритм довольно сложен для показа здесь.

Pavan Yalamanchili · Answer 1 · 14 августа 2011

Прежде чем я начну, пожалуйста, помните, что в CUDA есть два уровня параллелизма: блоки и потоки.

Существуют сотни и даже тысячи независимых потоков, которые не требуют никакой синхронизации во время вычислений

Поскольку вы можете запускать до 65535 блоков на измерение, вы можете рассматривать каждый блок в cuda как эквивалент "вашего" потока.

Каждый потокимеет относительно небольшую (менее 200 КБ) область локальной памяти, содержащую специфичные для потока данные.Чтение / запись

К сожалению, большинство карт имеют ограничение общей памяти 16 КБ на блок.Так что, если вы можете понять, как справиться с этим нижним пределом, отлично.Если нет, вам нужно использовать глобальный доступ к памяти.

Каждый поток обращается к большому блоку памяти (сотни мегабайт и даже гигабайт).Эта память доступна только для чтения

Нельзя связывать такие большие массивы с текстурами или постоянной памятью.Таким образом, в данном блоке попытайтесь заставить потоки читать непрерывные порции данных для лучшей производительности.

Для каждого доступа к глобальной памяти будет как минимум два доступа к локальной памяти.быть много веток в алгоритме

Поскольку вы по сути заменяете один поток в своей первоначальной реализации блоком в cuda, вы можете немного пересмотреть код, чтобы попытаться реализоватьПараллельная версия "на код потока" тоже.

На первый взгляд, это может быть непонятно, но немного подумайте.Любой алгоритм, имеющий сотни / тысячи независимых частей без синхронизации, отлично подходит для параллельной реализации, даже с cuda.

peakxu · Answer 2 · 14 августа 2011

Мой инстинкт - агрессивное использование памяти текстур.Преимущества кэширования превзойдут несохраненные чтения глобальной памяти на милю.

Записи, которые вам могут понадобиться, чтобы добавить некоторые отступы и т. Д., Чтобы избежать конфликтов в банках.

Использование сотен мегабайт или гиговданные несколько касаются.Вы можете вырезать это как-нибудь?Надеюсь, у вас есть большой навороченный Tesla / Quadro с большим количеством оперативной памяти.

Тем не менее, название игры для оптимизации CUDA всегда означает эксперимент, профиль / измерение, промывание и повторение.

Большой постоянный массив в глобальной памяти

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Большой постоянный массив в глобальной памяти

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов