Частичный ответ:
Первая эпоха медленнее из-за различных издержек инициализации: вся ваша модель инициализируется выбранными значениями или распределениями, создаются экземпляры слоев модели и т. Д.
Более поздние эпохи могут ускоряться по любой из множества причин. Наиболее распространенным в моей работе является то, что различные алгоритмические анализаторы изучают управление данными + потоком вашей модели и корректируют поток для повышения производительности.
Это может включать в себя прием данных (кэширование),короткое замыкание операции, переключение на вычисления с разреженной матрицей, когда веса ядра "встряхиваются", чтобы получить большинство из 0,0 элементов и т. д.
Однако без надлежащего примера для точного воспроизведения эффекта и без попытокВ профиле исполнения эти идеи являются лишь догадками.