При вызове Model.fit()
много раз (тысяч) каждый вызов занимает все больше и больше времени. Он может начинаться с 150 мкс / сэмпл и примерно через 30 минут составляет 300 мкс / сэмпл и продолжает работать медленнее. Если я оставлю его работать на ночь, на следующий день он может быть примерно в 10 раз медленнее.
На этом графике 10-часовых тренировок вы можете видеть увеличивающееся расстояние между точками. 
Медлительность сохраняется между моделями, которые начинаются заново без контрольной точки, поэтому не обязательно, чтобы она выполняла больше работы позже в процессе обучения. Он сбрасывается до быстрого, если я перезагружаю приложение, поэтому мой компьютер не тормозит.
Я звоню tf.keras.backend.clear_session()
между каждыми 20 вызовами Model.fit (), и это предотвращает утечку памяти, но не помогаетэто «скорость утечки».