Я хочу развернуть модель keras с тензорным потоком. Модель преобразуется из модели keras .h5 в файл .pb. (исходная модель взята из [здесь] [https://github.com/shaoanlu/face_toolbox_keras))
). При выполнении логического вывода с кератами на этой модели, если я использую только свой процессор, 12 ядер работают, и логический вывод занимает в среднем 0,7 с.
При преобразовании модели и использовании обслуживания тензорного потока она использует только одно ядро и занимает в среднем 2,7 с.
Я пробовал устанавливать такие параметры, как --tensorflow_session_parallelism, --tensorflow_intra_op_parallelism и --tensorflow_inter_op_parallelism. до 12, но ничего не меняется, только одно ядро работает, если смотреть сверху изнутри контейнера tfserving.
Я попытался также скомпилировать тензор потока, обслуживающий архитектуру моей машины, и я получаю небольшое улучшение (2.7s до 2,5 с), но я не могу контролировать количество ядер, используемых в сеансе.
Я предположил, что хорошо, что другие ядра доступны для одновременных запросов, но я хотел бы иметь больший контроль.