Из комментариев кажется, что главный вопрос: как заставить его сходиться без предварительной подготовки.
Смысл предварительной подготовки заключался в том, что она делает тренировку более стабильной, и нам нужно меньше настраивать другие гиперпарамы.,Вот почему он не сходится как есть, когда вы просто отключаете предварительную подготовку.Вы должны настроить его гораздо больше.
Что нужно настроить:
- инициализация имеет гораздо большее значение
- скорость обучения (начальная, фаза прогрева, дальнейшее планирование)
- регуляризация (выпадение, L2, сглаживание меток) (возможно, это также требует планирования)