как реализовать пирамидальный двунаправленный LSTM (pBLSTM) в pytorch - PullRequest
0 голосов
/ 29 мая 2018

Мне нужно работать с довольно длинными последовательностями (от сотен до тысяч временных шагов), и я обнаружил пирамидальную двунаправленную LSTM из Слушай, слушай и произноси: нейронная сеть для распознавания разговорной речи с большим словарным запасом .Он читает

Операция прослушивания использует двунаправленную кратковременную память RNN (BLSTM) [15, 16, 2] с пирамидальной структурой.Эта модификация требуется для уменьшения длины U h от T до длины входного x, поскольку входные речевые сигналы могут иметь длину от сотен до тысяч кадров.Непосредственное применение BLSTM для операции Listen медленно сходилось и давало результаты, худшие по сравнению с отчетными, даже после месяца обучения.Вероятно, это связано с тем, что операции AttendAndSpell сложно извлекать соответствующую информацию из большого количества временных шагов ввода.

Но я не смог найти реализацию для этого.Кто-нибудь знает о реализации pBLSTM, предпочтительно в pytorch, но с тензорным потоком тоже все в порядке.

Эта структура очень напоминает мне свертку последовательностей.

1 Ответ

0 голосов
/ 14 июня 2018
...