Генерация текста внимания в режиме «Символ за символом» - PullRequest
1 голос
/ 19 сентября 2019

Я ищу в Интернете пару дней для любой модели генерации текста модели, которая будет использовать только механизмы внимания.

Архитектура Transformer , которая вызвала волнуконтекст Seq-to-Seq моделей фактически основан исключительно на механизмах Attention , но в основном предназначен и используется для задач бота перевода или чата, поэтому он не соответствует цели,но принцип работает.

Мой вопрос:

Кто-нибудь знает или слышал о модели генерации текста , основанной исключительно на Внимание, без повторений ?

Большое спасибо!

PS Я знаком с PyTorch .

1 Ответ

1 голос
/ 19 сентября 2019

Построение модели самообслуживания на уровне персонажа является сложной задачей.Модели уровня персонажа обычно основаны на RNN.В то время как в модели слово / подслово с самого начала ясно, что представляют собой единицы, несущие значение (и, следовательно, единицы, на которые может обратить внимание механизм внимания), модель уровня персонажа должна изучить значение слова в следующих слоях.Это усложняет изучение модели.

Модели генерации текста - не более чем модель условных языков.AI Google недавно опубликовал статью о модели языка символов Transformer , но это единственная работа, которую я знаю.

В любом случае, вы должны рассмотреть возможность использования единиц подслов (как BPE, SentencePiece) илиесли вам действительно нужно перейти на уровень персонажа, используйте вместо этого RNN.

...