Приветствую всех!
Я хочу спросить, существует ли оптимальная длина последовательности сети LSTM в общая или с точки зрения прогнозирования временных рядов проблем?
Я читал о исчезающем градиенте или взрывном градиенте проблем, которые были у очень длинных сетей RNN, и LSTM пытался решить и преуспел в определенной степени.
Я также слышал о методах обработки очень больших последовательностей с LSTM и RNN в целом, таких как: усечение последовательностей, суммирование последовательностей, усечение обратного распространения по времени или даже использование архитектуры кодировщика-декодера.
Я задал этот вопрос, потому что я не нашел исследовательскую статью об этом, только это сообщение в блоге , в котором указана оптимальная длина последовательности между 10-30 .
Заранее спасибо!
Хорошего дня!