Чтобы ответить на ваши вопросы последовательно:
- Когда вы уменьшили количество нейронов в каждом плотном слое и получили лучшую подготовку и точность, вы уменьшили феномен переобучения в вашем проблема. Удаление некоторых нейронов из ваших слоев ведет себя как регуляризатор в вашей проблеме и, таким образом, смягчает эффект переобучения. Это не редкая ситуация; в соответствии с вашим набором данных и общей архитектурой нейронной сети уменьшение количества нейронов в некоторых слоях может очень хорошо привести к лучшему обобщению вашей модели.
- Второй вопрос зависит от конкретного случая; При построении нейронных сетей с нуля нет никакой гарантии, что ваша проблема будет работать лучше с подходом A или подходом B; Вот почему мы выполняем поиск и оптимизацию гиперпараметров, чтобы искать наилучшие общие параметры, чтобы минимизировать наши потери в наборе проверки.
Для общей эвристики, применяемой при построении модели с нуля, особенно с плотными слоями, пожалуйста, обратитесь к следующей ссылке: https://towardsdatascience.com/17-rules-of-thumb-for-building-a-neural-network-93356f9930af. Некоторые из применимых эвристик доступны для плотных слоев в целом; не имеет значения, будут ли входные данные, как в вашей задаче, поступать с обработки LSTM.