Прежде всего, почему вы перезагружаете свою модель для каждого прогноза?Код будет намного быстрее, если вы загрузите свою модель только один раз, а затем сделаете прогноз.Кроме того, если вы загружаете несколько снимков одновременно и прогнозируете в пакетном режиме, это также приведет к значительному увеличению скорости.
Какую ошибку нехватки памяти вы получаете?Один из тензорного потока (или какой бэкэнд вы используете) или один из питона?Моим лучшим предположением будет то, что load_model загружает одну и ту же модель снова и снова в одном сеансе тензорного потока, пока ваш ресурс не будет исчерпан.Решение, как указано выше, состоит в том, чтобы просто загрузить модель в начале.