Я прочитал много учебных слайдов, показывающих, что при разгрузке кодов на GPU, чтобы добавить дополнительный уровень параллелизма, нам нужно использовать прагму «команды распространения», чтобы отобразить команды потоков в разные блоки потоков.Но что я не понимаю, так это то, как эти карты помогают улучшить производительность.Использует ли это сопоставление разделяемую память на графическом процессоре?Спасибо!