Маркировка последовательности с помощью BERT для положения слов - PullRequest
0 голосов
/ 09 января 2020

Если у меня есть набор предложений и в этих предложениях есть некоторые зависимости между словами. Я хочу научить BERT предсказывать, какие слова зависят от других.

Пример: если у меня есть это предложение:

Мы перемещались в Париже, который является столицей Франции. .

0 ------ 1 ------- 2 ------- 3 ------ 4 ---- 5 ------ 6 ----- 7 --- 8 ----- 9 ---- 10 --- 11 (словесные индексы)

Я хочу, чтобы BERT предсказал, для слова Paris, позиция France. Таким образом, чтобы сформировать задачу как задачу маркировки последовательности.

enter image description here

, где метка для слова могла бы быть -1, если нет никакой связи между этим слово и любые другие слова в предложении или указатель другого слова; для нашего примера выше, Paris слово должно иметь 11 в качестве индекса слова France.

Это правильный способ разместить индексы как метки?

1 Ответ

1 голос
/ 10 января 2020

Нет. Проблема в том, что в каждом предложении индекс позиции имеет совершенно другое значение, поэтому сети было бы крайне важно узнать, что делать. Вы можете представить матрицу параметров в окончательной проекции в виде вложений целевых классов, а классификацию - в качестве измерения сходства состояния вывода из вложений классов.

Я предлагаю выполнять классификацию аналогично тому, что люди иногда делают в зависимости синтаксические анализаторы, т. е. для каждой пары слов, классифицируют, существует ли связь между словами или нет .

BERT дает матрицу с контекстными вложениями для каждого предложения. Создайте из него трехмерный тензор, где позиция [i, j] содержит конкатенацию представления слов i и j. Затем классифицируйте каждую из этих пар как true / false, сообщая, является ли связь зависимостей между этими двумя словами или нет.

...