Я бы начал с использования batch_size больше 1. Вы хотите, чтобы оптимизатор учитывал несколько точек данных, а не только одну выборку за раз.Надеемся, что ваши выборки данных отличаются, поэтому вы хотите, чтобы оптимизация учитывала набор средних значений.