Question

В моем обучении тензорному потоку с несколькими графическими процессорами (1.13) некоторые разреженные операции занимают значительное количество времени. На временной шкале я обнаружил, что эти разреженные операции могут выполняться только на процессоре, который не поддерживает ядро GPU, и приводят к частым копиям памяти.

например,

Как показано выше, SparseFillEmptyRows и SparseSegmentSum занимают большую часть времени ЦП и вызывают большое количество копий памяти (DtoH && HtoD). Если эти две операции можно перенести в графический процессор, я думаю, что это может значительно повысить производительность.

Я хочу знать, в чем причина этого. Просто это никто не развивает? Или разреженная операция плохо работает на GPU?

Почему так мало ядер GPU для разреженной работы в tenorflow?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему так мало ядер GPU для разреженной работы в tenorflow?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы