Если вы используете стандартную модель с предварительной подготовкой, я настоятельно рекомендую взглянуть на проект gluoncv - инструментарий для Computer Vision на основе Apache MXNet.
У них действительно хорошие реализации современных моделей, иногда даже превосходящие оригинальные результаты, опубликованные в научных статьях. Круто то, что они также предоставляют код предварительной обработки данных - насколько я понимаю, это то, что вы ищете. (см. gluoncv.data.transforms.presets
пакет).
Я не знаю, какой вывод вы хотите сделать, например, классификацию изображений, сегментацию и т. Д., Но посмотрите список учебных пособий , и, скорее всего, вы найдете тот, который вам нужен.
Кроме этого, оптимизация для быстрого настенного времени требует от вас убедиться, что ваш графический процессор используется на 100%. Возможно, вам будет полезно посмотреть это видео , чтобы узнать больше о советах и рекомендациях по оптимизации производительности. Здесь обсуждаются вопросы обучения, но те же методы применимы и к логическому выводу.