Практические советы по работе с очень длинными входами с использованием модели LSTM? - PullRequest
0 голосов
/ 28 сентября 2018

Я построил модель LSTM на уровне символов на текстовых данных, но в конечном итоге я хочу применить эту модель к очень длинным текстовым документам (таким как роман), где важно понимать контекстную информацию, например, где в романеон находится в.

Для этих крупномасштабных задач НЛП данные обычно нарезаются на более мелкие части и объединяются с метаданными - такими как положение в документе, обнаруженная тема и т. д. - для подачи в модель?Или есть более изящные приемы?

Ответы [ 2 ]

0 голосов
/ 14 января 2019

Добавление еще нескольких идей в ответ, обозначенных bhaskar , которые используются для решения этой проблемы.

Вы можете использовать механизм Внимание , который используется для решенияс долгосрочными зависимостями.Поскольку для длинной последовательности он, безусловно, забывает информацию, или его следующее предсказание может не зависеть от всей информации о последовательности, которую он имеет в своей ячейке.Так что attention mechanism helps to find the reasonable weights for the characters, it depend on. Для получения дополнительной информации вы можете проверить эту ссылку

Потенциально много исследований по этой проблеме. Эта является самой последней статьей по этой проблеме.

Вы также можете разбить последовательность и использовать модель seq2seq, которая кодирует объекты в пространство с низким диммером, а затем декодер извлекает их.Это короткая статья об этом.

Мой личный совет - разбить последовательность и затем обучить ее, потому что скользящее окно в полной последовательности в значительной степени способно найти корреляцию между каждымпоследовательность. * * тысяча двадцать-один

0 голосов
/ 02 октября 2018

Лично я не углубился в подробности использования LSTM, чтобы перейти на уровень глубины, которого вы пытаетесь достичь, но у меня есть некоторые предложения.

Одним из решений вашей проблемы, о котором вы упомянули выше, может быть простой анализ различных частей документа путем разбиения документа на более мелкие части и анализа их таким образом.Возможно, вам придется проявить креативность.

Еще одно решение, которое, на мой взгляд, может вас заинтересовать, - это использование модели Tree LSTM для получения более глубокого уровня. Вот ссылка на статью Используя древовидную модель, вы можете вводить отдельные символы или слова на самом низком уровне, а затем подавать его вверх на более высокие уровни абстракции.Опять же, я не совсем знаком с моделью, поэтому не верьте мне на слово, но это может быть возможным решением.

...