Я анализирую влияние занятости на производительность моего GPU-ускоренного решателя для приложений CFD. Когда я увеличиваю количество потоков, участвующих в решении домена, частота попаданий в кэш L2 значительно уменьшается (с 70% до 25%). Почему это происходит?
Расстояние между данными, запрашиваемыми потоками, велико, и я думаю, что это является причиной проблемы.