Question

Я видел коды github базовой языковой модели https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/ptb_word_lm.py и пытаюсь реализовать один для моего проекта.Он использует LSTM с сохранением состояния или сохраняет состояния lstm между партиями.Я запутался в отношении этого поведения, почему оно необходимо в первую очередь в языковых моделях.Потому что, скажем, размер партии равен 20. Скрытый размер lstm равен 1500. Поэтому укажите размер lstm [20,1500].Таким образом, сохранение состояния пакета и его использование в следующем пакете не является необходимым, поскольку следующий пакет будет иметь совершенно разные последовательности.и как это сохраненное состояние синхронизируется со скрытым состоянием lstm в следующем пакете?Может кто-нибудь сказать мне необходимость сохранения состояний lstm между партиями в случае фрагментированных последовательностей?И насколько это полезно в данном случае языковой модели?где ввод - это подача, учитывающая фиксированное количество слов в последовательности, а не предложение как целую последовательность и передачу ряда последовательностей в пакете, поэтому в идеале это случай фрагментированных последовательностей в качестве ввода.но lstm с сохранением состояния полезен в случае размера пакета 1, но как это полезно для batch_size> 1, как в этом случае?

Запутанное повторное использование LSTM с сохранением состояния в языковом моделировании

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Запутанное повторное использование LSTM с сохранением состояния в языковом моделировании

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы