Почему так мало ядер GPU для разреженной работы в tenorflow? - PullRequest
0 голосов
/ 30 апреля 2020

В моем обучении тензорному потоку с несколькими графическими процессорами (1.13) некоторые разреженные операции занимают значительное количество времени. На временной шкале я обнаружил, что эти разреженные операции могут выполняться только на процессоре, который не поддерживает ядро ​​GPU, и приводят к частым копиям памяти.

например,

enter image description here

Как показано выше, SparseFillEmptyRows и SparseSegmentSum занимают большую часть времени ЦП и вызывают большое количество копий памяти (DtoH && HtoD). Если эти две операции можно перенести в графический процессор, я думаю, что это может значительно повысить производительность.

Я хочу знать, в чем причина этого. Просто это никто не развивает? Или разреженная операция плохо работает на GPU?

...