Я ищу совет для максимально быстрой реализации алгоритма свертки для вывода CNN, но не для обучения.
Эта сверточная нейронная сеть, смоделированная как alexnet, mobilenet, resnet и т. Д., Будет работать на встроенном устройстве ARM (A72, A53, A35) и, возможно, на встроенном графическом процессоре.
Я так понимаюэто различные реализации и NN-среды, которые имеют различные реализации, такие как прямая свертка, свертка на основе развертывания (im2col), на основе FFT или Winograd, но моя основная задача - выполнить CNN с ограничением производительности встроенного устройства.
Если кто-нибудьимеет опыт работы и может порекомендовать сверточную реализацию для CPU и параллельной реализации, указать на исследовательскую работу или реализацию с открытым исходным кодом. Я был бы очень признателен.