Насколько я знаю, поиск по сетке может быть лучшим подходом. Тем не менее, вы можете уменьшить свое пространство поиска, изучив ваши данные. Если у вас мало данных, попробуйте go для меньшей модели, не слишком большой go (иначе она будет слишком большой). Это может немного уменьшить ваше пространство поиска. Некоторые говорят, что меньше слоя, но больше единицы хорошо работает для данных с низким ресурсом, но все же, это не гарантируется.
Регуляризатор может иногда быть хорошим или плохим, это зависит от задачи. Вы никогда не узнаете, является ли настройка правильной или нет, если вы не экспериментируете с ней.
Для размера партии рекомендуется экспериментировать с размером партии от 16 до 512 (или вы можете go выше, если вы можете). Чем больше размер пакета, тем быстрее он тренируется, тем больше памяти он потребляет. Меньший размер партии также означает, что модель будет «ходить» более случайно. Другими словами, потеря будет уменьшаться в более случайном темпе.
Для оптимизатора, если вы хотите выполнять поиск по сетке, просто используйте Адам. Это очень хорошо для большинства задач.
В общем, никто не может гарантировать, что настройка различных гиперпараметров приведет к увеличению производительности. Все это нужно экспериментировать и записывать. Вот почему так много исследований сделано по настройке гиперпараметров.