Улучшает ли внимание производительность автоэнкодеров seq2seq? - PullRequest
0 голосов
/ 08 ноября 2018

Я пытаюсь реализовать автоматический код RNN, и мне было интересно, улучшит ли внимание мои результаты.

Моя конечная цель - создать механизм поиска сходства документов, и я ищу способы кодированиядокументы.

Поскольку я не заинтересован в обучении декодеру, а скорее в кодере, разве внимание добавляет ценность процессу?

1 Ответ

0 голосов
/ 11 ноября 2018

Когда длина последовательностей увеличивается выше предела емкости вашего RNN, производительность будет продолжать падать.

Механизм внимания позволяет RNN постепенно фокусироваться только на оптимальных подпоследовательностях, поэтому в оптимальном сценарии производительность не будет ограничена максимальной длиной последовательности. Эффективность модели внимания для приложений НЛП, таких как языковой перевод, хорошо подтверждена.

В этом контексте необходимо учитывать компромисс: вся модель внимания обучается непрерывно с градиентным спуском. Веса внимания формируют матрицу формы (len(input_seq), len(output_seq)), а для тренировки их имеет квадратичное время выполнения . Поэтому внимание будет наиболее полезным, если:

  1. Последовательности слишком длинные, чтобы справиться с пропускной способностью обычной установки RNN
  2. Последовательности не такие длинные, что квадратичное время выполнения делает их не стоящими.

В любом случае ведутся активные исследования по сокращению этого времени выполнения. Для получения справочных материалов и дополнительной информации по этому вопросу, я рекомендую вам проверить видео за 3 недели Coursera Эндрю Нга по глубокому моделированию последовательности (доступ бесплатный). Курс также охватывает реализацию модели внимания в Keras с некоторыми хорошими графиками.

Надеюсь, это поможет! веселит,
Andres

...