Тренировка постепенно замедляется - PullRequest
0 голосов
/ 13 октября 2019

При вызове Model.fit() много раз (тысяч) каждый вызов занимает все больше и больше времени. Он может начинаться с 150 мкс / сэмпл и примерно через 30 минут составляет 300 мкс / сэмпл и продолжает работать медленнее. Если я оставлю его работать на ночь, на следующий день он может быть примерно в 10 раз медленнее.

На этом графике 10-часовых тренировок вы можете видеть увеличивающееся расстояние между точками. training graph from Tensorboard

Медлительность сохраняется между моделями, которые начинаются заново без контрольной точки, поэтому не обязательно, чтобы она выполняла больше работы позже в процессе обучения. Он сбрасывается до быстрого, если я перезагружаю приложение, поэтому мой компьютер не тормозит.

Я звоню tf.keras.backend.clear_session() между каждыми 20 вызовами Model.fit (), и это предотвращает утечку памяти, но не помогаетэто «скорость утечки».

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...