1) Вы можете использовать адаптивную скорость обучения (для вас может сработать экспоненциальный спад или ступенчатая зависимость). Кроме того, вы можете попробовать очень высокие скорости обучения, когда ваша модель переходит на локальный минимум.
2) Если вы тренируетесь с изображениями, вы можете перевернуть, повернуть или выполнить другие действия, чтобы увеличить размер набора данных, и, возможно, для вашего случая подойдут другие методы дополнения.
3) Попробуйте изменить модель на более глубокую, мелкую, широкую, узкую.
4) Если вы используете классификационную модель, убедитесь, что вы не используете sigmoid как функция активации в конце, если вы не выполняете бинарную классификацию.
5) Всегда проверяйте ситуацию с набором данных перед тренировкой.
- Ваше разделение теста на поезд может не подходить для вашего случая.
- В ваших данных могут быть сильные шумы.
- Некоторое количество ваших данных может быть повреждено.
Примечание: Я буду обновлять их всякий раз, когда мне в голову приходит новая идея. Кроме того, я не хотел повторять комментарии и другие ответы, у них обоих есть ценная информация для вашего случая.