Question

Я изучаю использование предварительно обученной модели BERT ('bert-base-uncased') для извлечения контекстуализированных кодировок на уровне слов из нескольких предложений.

Токенизация WordPiece разбивает некоторые слова в моем ввод в подсловах. Возможно, это был тривиальный вопрос, но мне было интересно, какой самый разумный способ объединить выходные кодировки для токенов подслов в кодировки на уровне слов.

Является ли усреднение кодировок подслов разумным способом для go? Если нет, есть ли лучшая альтернатива?

Bram Vanroy · Answer 1 · 29 января 2020

Интуитивно понятно, что ваша проблема похожа на «как получить хорошее представление предложения», за исключением того, что в наши дни вы также можете использовать маркер классификации предложения, чтобы получить представление предложения в большинстве моделей на основе преобразователя. Однако такой токен недоступен для представлений на уровне токена.

В вашем случае, я думаю, есть несколько вариантов, но из того, что я видел, люди чаще всего используют либо среднее, либо максимальное значение. Другими словами: возьмите среднее значение ваших подслов слов или максимальные значения. По моему мнению, усреднение является наиболее интуитивным началом.

Обратите внимание, что средние значения - это всего лишь среднее значение по последовательности. Это подразумевает, что оно не является сверхточным (одно высокое и одно низкое значение будет иметь то же среднее значение, что и два средних значения), но, вероятно, оно наиболее простое.

получение кодировок на уровне слов из кодировок подслов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получение кодировок на уровне слов из кодировок подслов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы