Я только начал изучать CUDA, и я действительно очень озадачен тем, как использовать память GPU, проблема в том, что
Мне нужно, чтобы каждый блок (группа потоков в одном и том же блоке) возвращал свой собственный результат и копировал его в память процессора.
Мой вопрос:
Могу ли я сохранить результат каждого блока в общей памяти, а затем скопировать его в глобальную память?
Как я могу собрать результат каждого?
Буду благодарен, если кто-то может помочь!