Как я могу найти изученные слова, то есть образцы изученного языка RNN? - PullRequest
0 голосов
/ 04 апреля 2020

Я обучил модель LSTM, которая дает историю из N символов, которая предсказывает следующий символ. Другими словами, это генератор текста на уровне символов.

Поскольку это модель уровня символов, мне интересно, можно ли ее использовать для определения словарного запаса изучаемого языка. Могу ли я найти слова, которые существуют в корпусе, как, например, при добыче шаблонов?

Я подумал о том, чтобы позволить модели генерировать слова, задав ей начальное состояние и некоторый случайный ввод, и продолжать до тех пор, пока не будет предсказан пробел или любой другой завершающий персонаж, но я ищу лучший способ, так как он не очень хорошо работает. Более того, я не хочу полагаться на критерии, такие как завершающие символы, потому что я хочу, чтобы задача поиска слов была полностью без присмотра.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...