Я сейчас создаю и LSTM для прогнозирования редких событий. Я видел эту статью, в которой предлагается: во-первых, автоматический кодировщик LSTM для извлечения функций, а во-вторых, чтобы использовать вложения для второго LSTM, который сделает реальный прогноз. Согласно им, функции извлечения автоэнкодера (обычно это так), которые затем полезны для предсказания слоев прогнозирования.
В моем случае мне нужно предсказать, будет ли это экстремальное событие (это самое главное), и насколько сильным оно будет. Следуя их советам, я создал модель, но вместо добавления одного LSTM из вложений в прогнозы добавляю два. Один для бинарного предсказания (это или нет), заканчивающийся сигмовидным слоем, а второй для предсказания, насколько сильным будет. Тогда у меня три потери. Потери при восстановлении (MSE), потери при прогнозировании (MSE) и двоичные потери (Binary Entropy).
Дело в том, что я не уверен, что изучает что-либо ... двоичная потеря сохраняется в 0,5, и даже потеря реконструкции не очень хороша. И, конечно, плохо то, что временные ряды равны нулю, а некоторые - от 1 до 10, поэтому MSE определенно не является хорошим показателем.
Что вы думаете об этом подходе?
- Это лучшая архитектура для прогнозирования редких событий? Какой из них будет лучше?
- Должен ли я добавить некоторые CNN или FC из вложений раньше других в LSTM, для извлечения одномерных моделей из внедрения или непосредственно для прогнозирования?
- Должен ли LSTM, который предсказывает, быть только одним? И использовать только потери MSE?
- Было бы неплохо умножить два прогноза, чтобы в обоих случаях прогнозируемые дни без события совпадали?
Спасибо