Здравствуйте, я новичок в программировании cuda, и у меня возникла проблема.
У меня есть переменная, давайте назовем foo , хранящуюся в общей памяти каждого блока с разными значениями от одного блока к другому. И я хочу, чтобы только один поток суммировал их все по блокам. Я думал отправить foo в глобальную память, а затем вычислить сумму, но есть ли какая-нибудь функция, которая может сделать это быстрее?
Спасибо за вашу помощь.