Question

Некоторая предыстория,

Я тренирую LSTM для прогнозирования временных рядов (не прогнозирования)
Временные ряды неравномерно распределены и имеют переменную длину.Поэтому последовательности дополняются до равной длины с 0 *. 1006 *
временными шагами = 30
Модель имеет 6 выходов, которые нормированы между [0, 1]
Особенности (50) состоят издинамические и статические переменные
Характеристики нормализованы с использованием стандартных и средних значений и преобразованы с помощью PCA.
Веса модели инициализируются с помощью "glorot_normal"
Скрытые слои lstm используют "tanh", в то время как выходной слой lstm использует "relu"
Среднее квадратичное логарифмическая ошибка в качестве функции потерь (работает немного лучше, чем mse, и mse также показывает ту же тенденцию потери)
lr = 0,001
batch_size = 128
числоскрытые единицы 60

Ниже приведены кривые потерь обучения и проверки, которые изначально отображают плоскую кривую.При обучении более длительное переоснащение происходит на одном из выходов и влияет на модель в целом.См увеличенный в тренде потери.Несмотря на это кривые других остаются относительно плоскими.Кроме того, модель способна находить закономерности, но она не является точной с точки зрения диапазона, которого я хотел бы достичь.Это выходит за рамки или не соответствует истинной ценности.См. Прогнозы ниже.

Вопросы

Могут ли статические характеристики быть причиной этой тенденции высоких потерь?Я прочитал в этом блоге (в процессе подготовки данных), что нужно будет собирать статистику по временным рядам, чтобы не пропускать будущую информацию в набор обучающих данных.Я не уверен, что это значит.Может ли кто-нибудь также объяснить это мне?
Я скептически отношусь к тому, что добавление дополнительных данных приведет к значительному улучшению, поскольку кривая обучения относительно плоская.Верно ли это убеждение?
Существуют ли более эффективные схемы инициализации, которые приблизят меня к лучшей производительности
Есть еще какие-нибудь идеи о том, как улучшить модель?

Как противодействовать переоборудованию одного выхода в нейронной сети с несколькими выходами, что приводит к стагнации производительности модели

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как противодействовать переоборудованию одного выхода в нейронной сети с несколькими выходами, что приводит к стагнации производительности модели

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы