Мне нужно работать с довольно длинными последовательностями (от сотен до тысяч временных шагов), и я обнаружил пирамидальную двунаправленную LSTM из Слушай, слушай и произноси: нейронная сеть для распознавания разговорной речи с большим словарным запасом .Он читает
Операция прослушивания использует двунаправленную кратковременную память RNN (BLSTM) [15, 16, 2] с пирамидальной структурой.Эта модификация требуется для уменьшения длины U h от T до длины входного x, поскольку входные речевые сигналы могут иметь длину от сотен до тысяч кадров.Непосредственное применение BLSTM для операции Listen медленно сходилось и давало результаты, худшие по сравнению с отчетными, даже после месяца обучения.Вероятно, это связано с тем, что операции AttendAndSpell сложно извлекать соответствующую информацию из большого количества временных шагов ввода.
Но я не смог найти реализацию для этого.Кто-нибудь знает о реализации pBLSTM, предпочтительно в pytorch, но с тензорным потоком тоже все в порядке.
Эта структура очень напоминает мне свертку последовательностей.