Имеет ли внимание смысл для автоэнкодеров? - PullRequest
1 голос
/ 28 сентября 2019

Я борюсь с концепцией внимания в контексте автоэнкодеров.Мне кажется, я понимаю использование внимания в отношении перевода seq2seq - после обучения комбинированному кодеру и декодеру мы можем использовать как кодер, так и декодер для создания (например) языкового переводчика.Поскольку мы все еще используем декодер в производстве, мы можем воспользоваться механизмом внимания.

Однако что, если основная цель автоэнкодера состоит в основном в создании скрытого сжатого представления входного вектора?Я говорю о случаях, когда мы можем по существу избавиться от части модели декодера после обучения.

Например, если я использую LSTM без внимания, «классический» подход заключается в использовании последнего скрытого состояния какконтекстный вектор - он должен представлять основные особенности моей входной последовательности.Если бы я использовал LSTM с вниманием, мое скрытое представление должно было бы быть всеми скрытыми состояниями за шаг по времени.Это, кажется, не вписывается в понятие входного сжатия и сохранения основных функций.Вполне вероятно, что размерность может быть даже значительно выше.

Кроме того, если мне нужно было использовать все скрытые состояния в качестве скрытого представления (как в случае с вниманием) - зачем вообще использовать внимание?Я мог бы просто использовать все скрытые состояния для инициализации декодера.

...