Когда длина последовательностей увеличивается выше предела емкости вашего RNN, производительность будет продолжать падать.
Механизм внимания позволяет RNN постепенно фокусироваться только на оптимальных подпоследовательностях, поэтому в оптимальном сценарии производительность не будет ограничена максимальной длиной последовательности. Эффективность модели внимания для приложений НЛП, таких как языковой перевод, хорошо подтверждена.
В этом контексте необходимо учитывать компромисс: вся модель внимания обучается непрерывно с градиентным спуском. Веса внимания формируют матрицу формы (len(input_seq), len(output_seq))
, а для тренировки их имеет квадратичное время выполнения . Поэтому внимание будет наиболее полезным, если:
- Последовательности слишком длинные, чтобы справиться с пропускной способностью обычной установки RNN
- Последовательности не такие длинные, что квадратичное время выполнения делает их не стоящими.
В любом случае ведутся активные исследования по сокращению этого времени выполнения. Для получения справочных материалов и дополнительной информации по этому вопросу, я рекомендую вам проверить видео за 3 недели Coursera Эндрю Нга по глубокому моделированию последовательности (доступ бесплатный). Курс также охватывает реализацию модели внимания в Keras с некоторыми хорошими графиками.
Надеюсь, это поможет! веселит,
Andres