Это не совсем ответ на вопрос ОП, но он важен для его запроса:
Графический процессор чем-то похож на взаимоисключающий ресурс. Если у вас есть несколько потоков, выполняющих операции рисования, вы создаете накладные расходы на управление. Работа должна быть разделена на шейдерные блоки, или требуется некоторое временное наложение. В любом случае, если операции рисования идут в один и тот же кадровый буфер, операции должны быть синхронизированы, что означает, что конвейеры графического процессора довольно часто останавливаются.
Конечным результатом является то, что выполнение многопоточных операций на графическом процессоре, скорее всего, приведет к значительному снижению производительности.
Также нет необходимости выполнять многопоточные операции на GPU для распараллеливания работы. Это уже происходит, когда отдельные операции рисования разделяются на отдельные шейдерные блоки графических процессоров.