Влияние количества узлов в LSTM - PullRequest
0 голосов
/ 31 января 2020

Я новичок в машинном обучении, и я построил нейронную сеть с 2 плотными слоями. Когда я экспериментировал, у меня были следующие наблюдения:

  1. Когда я уменьшал количество узлов в каждом плотном слое, я, казалось, получал лучшую точность обучения и прогнозирования. Это меня удивило, потому что я предположил, что чем больше узлов в плотном слое, тем больше модель может понимать данные. Почему уменьшение числа узлов улучшает точность?

  2. Модель также дала лучшие результаты, когда число узлов в каждом плотном слое было непоследовательным. Например, я получил лучший результат, когда в одном плотном слое было 5 узлов, а в другом - 10, тогда как в обоих слоях было 5 или 10 узлов. Это почему? Часто ли несовместимое количество узлов в плотных слоях повышает точность?

1 Ответ

1 голос
/ 31 января 2020

Чтобы ответить на ваши вопросы последовательно:

  1. Когда вы уменьшили количество нейронов в каждом плотном слое и получили лучшую подготовку и точность, вы уменьшили феномен переобучения в вашем проблема. Удаление некоторых нейронов из ваших слоев ведет себя как регуляризатор в вашей проблеме и, таким образом, смягчает эффект переобучения. Это не редкая ситуация; в соответствии с вашим набором данных и общей архитектурой нейронной сети уменьшение количества нейронов в некоторых слоях может очень хорошо привести к лучшему обобщению вашей модели.
  2. Второй вопрос зависит от конкретного случая; При построении нейронных сетей с нуля нет никакой гарантии, что ваша проблема будет работать лучше с подходом A или подходом B; Вот почему мы выполняем поиск и оптимизацию гиперпараметров, чтобы искать наилучшие общие параметры, чтобы минимизировать наши потери в наборе проверки.

Для общей эвристики, применяемой при построении модели с нуля, особенно с плотными слоями, пожалуйста, обратитесь к следующей ссылке: https://towardsdatascience.com/17-rules-of-thumb-for-building-a-neural-network-93356f9930af. Некоторые из применимых эвристик доступны для плотных слоев в целом; не имеет значения, будут ли входные данные, как в вашей задаче, поступать с обработки LSTM.

...