Как противодействовать переоборудованию одного выхода в нейронной сети с несколькими выходами, что приводит к стагнации производительности модели - PullRequest
0 голосов
/ 09 июля 2019

Некоторая предыстория,

  • Я тренирую LSTM для прогнозирования временных рядов (не прогнозирования)
  • Временные ряды неравномерно распределены и имеют переменную длину.Поэтому последовательности дополняются до равной длины с 0 *. 1006 *
  • временными шагами = 30
  • Модель имеет 6 выходов, которые нормированы между [0, 1]
  • Особенности (50) состоят издинамические и статические переменные
  • Характеристики нормализованы с использованием стандартных и средних значений и преобразованы с помощью PCA.
  • Веса модели инициализируются с помощью "glorot_normal"
  • Скрытые слои lstm используют "tanh", в то время как выходной слой lstm использует "relu"
  • Среднее квадратичное логарифмическая ошибка в качестве функции потерь (работает немного лучше, чем mse, и mse также показывает ту же тенденцию потери)
  • lr = 0,001
  • batch_size = 128

  • числоскрытые единицы 60

Ниже приведены кривые потерь обучения и проверки, которые изначально отображают плоскую кривую.При обучении более длительное переоснащение происходит на одном из выходов и влияет на модель в целом.См увеличенный в тренде потери.Несмотря на это кривые других остаются относительно плоскими.Кроме того, модель способна находить закономерности, но она не является точной с точки зрения диапазона, которого я хотел бы достичь.Это выходит за рамки или не соответствует истинной ценности.См. Прогнозы ниже.

Вопросы

  1. Могут ли статические характеристики быть причиной этой тенденции высоких потерь?Я прочитал в этом блоге (в процессе подготовки данных), что нужно будет собирать статистику по временным рядам, чтобы не пропускать будущую информацию в набор обучающих данных.Я не уверен, что это значит.Может ли кто-нибудь также объяснить это мне?
  2. Я скептически отношусь к тому, что добавление дополнительных данных приведет к значительному улучшению, поскольку кривая обучения относительно плоская.Верно ли это убеждение?
  3. Существуют ли более эффективные схемы инициализации, которые приблизят меня к лучшей производительности
  4. Есть еще какие-нибудь идеи о том, как улучшить модель?

train_val_loss

enter image description here

zoomed_in_loss

...