Как понять hidden_states возвращений в BertModel? (Обниматься-трансформеры) - PullRequest
0 голосов
/ 20 апреля 2020

Возвращает last_hidden_state (torch.FloatTensor формы (batch_size, sequence_length, hidden_size)): последовательность скрытых состояний на выходе последнего слоя модели.

pooler_output (torch.FloatTensor : of shape (batch_size, hidden_size)): скрытое состояние последнего слоя первого токена последовательности (токена классификации), дополнительно обработанного линейным слоем и функцией активации Tanh. Веса линейного слоя обучаются на основе цели прогнозирования (классификации) следующего предложения во время предварительной подготовки.

Этот вывод обычно не является хорошим обобщением содержания ввода semanti c, вы часто лучше с усреднением или объединением последовательности скрытых состояний для всей входной последовательности.

hidden_states (tuple (torch.FloatTensor), необязательный, возвращается, когда config.output_hidden_states = True): кортеж torch.FloatTensor (один для выходные данные вложений + один для выходных данных каждого слоя) формы (batch_size, sequence_length, hidden_size).

скрытые состояния модели на выходе каждого слоя плюс начальные выходные данные внедрения.

Внимание (кортеж (torch.FloatTensor), необязательно, возвращается, когда config.output_attentions = True): кортеж torch.FloatTensor (по одному для каждого слоя) формы (batch_size, num_heads, sequence_length, sequence_length).

Веса внимания после Softmax внимания, используемые для расчета веса Среднее значение d в головах самообслуживания.

Это от https://huggingface.co/transformers/model_doc/bert.html#bertmodel. Хотя описание в документе понятно, я все еще не понимаю hidden_states возвратов. Существует кортеж, один для вывода вложений, а другой для вывода каждого слоя. Подскажите пожалуйста как их различить guish или в чем их смысл? Большое спасибо !! [wink ~

1 Ответ

0 голосов
/ 21 апреля 2020

Я нахожу ответ в длине этого кортежа. Длина составляет (1 + num_layers). И вывод последнего слоя отличается от вывода встраивания, потому что вывод слоя плюс начальное встраивание. : D

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...