Я написал приложение на языке cuda, которое использует 1 КБ общей памяти в каждом блоке.
Поскольку в каждом SM имеется только 16 КБ разделяемой памяти, в общей сложности можно разместить всего 16 блоков (правильно ли я понимаю?), Хотя на время можно запланировать только 8 блоков, но теперь, если какой-либо блок занят выполнением операции с памятью Таким образом, другой блок будет запланирован в gpu, но вся общая память используется другими 16 блоками, которые уже были запланированы там, так что cuda не будет планировать больше блоков на том же sm, если предыдущие выделенные блоки не будут полностью завершены? или он переместит разделяемую память какого-либо блока в глобальную память и выделит другой блок (в этом случае мы должны беспокоиться о задержке доступа к глобальной памяти?)