Возвращает last_hidden_state (torch.FloatTensor формы (batch_size, sequence_length, hidden_size)): последовательность скрытых состояний на выходе последнего слоя модели.
pooler_output (torch.FloatTensor : of shape (batch_size, hidden_size)): скрытое состояние последнего слоя первого токена последовательности (токена классификации), дополнительно обработанного линейным слоем и функцией активации Tanh. Веса линейного слоя обучаются на основе цели прогнозирования (классификации) следующего предложения во время предварительной подготовки.
Этот вывод обычно не является хорошим обобщением содержания ввода semanti c, вы часто лучше с усреднением или объединением последовательности скрытых состояний для всей входной последовательности.
hidden_states (tuple (torch.FloatTensor), необязательный, возвращается, когда config.output_hidden_states = True): кортеж torch.FloatTensor (один для выходные данные вложений + один для выходных данных каждого слоя) формы (batch_size, sequence_length, hidden_size).
скрытые состояния модели на выходе каждого слоя плюс начальные выходные данные внедрения.
Внимание (кортеж (torch.FloatTensor), необязательно, возвращается, когда config.output_attentions = True): кортеж torch.FloatTensor (по одному для каждого слоя) формы (batch_size, num_heads, sequence_length, sequence_length).
Веса внимания после Softmax внимания, используемые для расчета веса Среднее значение d в головах самообслуживания.