В статье никогда не упоминается 60000 эпох. эпоха обычно означает один проход по всему набору данных. 60000 эпох было бы безумием. Они используют 64000 итераций на CIFAR-10. Итерация включает обработку одной мини-партии, вычисление и затем применение градиентов.
Вы правы в том, что это означает> 150 проходов по набору данных (это эпохи). Современные модели нейронных сетей часто занимают дни или недели для обучения. В частности, ResNets хлопотны из-за их огромного размера / глубины. Обратите внимание, что в статье упоминается обучение модели на двух графических процессорах, что будет намного быстрее, чем на процессоре.
Если вы просто тренируете некоторые модели «для удовольствия», я бы рекомендовал значительно уменьшить их. Попробуйте 8 слоев или около того; даже это может быть слишком много. Если вы делаете это для исследовательских / производственных целей, приобретите несколько графических процессоров.