В моем обучении тензорному потоку с несколькими графическими процессорами (1.13) некоторые разреженные операции занимают значительное количество времени. На временной шкале я обнаружил, что эти разреженные операции могут выполняться только на процессоре, который не поддерживает ядро GPU, и приводят к частым копиям памяти.
например,
Как показано выше, SparseFillEmptyRows и SparseSegmentSum занимают большую часть времени ЦП и вызывают большое количество копий памяти (DtoH && HtoD). Если эти две операции можно перенести в графический процессор, я думаю, что это может значительно повысить производительность.
Я хочу знать, в чем причина этого. Просто это никто не развивает? Или разреженная операция плохо работает на GPU?