BERT (двунаправленный кодировщик представлений от трансформаторов) с числами - PullRequest
0 голосов
/ 15 октября 2019

Привет!

Я пытаюсь понять, как BERT работает с текстом, в котором есть номер. Более конкретно, я пытаюсь найти наиболее похожую строку в документе (текст + цифры) и конкретную строку (текст + цифры).

Я пробовал пример с BERT из 30 символов и косинусным сходством:

sentence2 = "I have 2 apple"; score(between sentence1 & sentence2): 0.99000436
sentence3 = "I have 3 apple"; score(between sentence1 & sentence3): 0.98602057
sentence4 = "I have 0 apple"; score(between sentence1 & sentence4): 0.97923964
sentence5 = "I have 2.1 apple"; score(between sentence1 & sentence5): 0.95482975

Я не понимаю, почему предложение4 имеет меньшую оценку, чем предложение3 (0 ближе к 1, чем 3), а 2,1 ближе к 1, чем 3 ...

Ответы [ 2 ]

1 голос
/ 15 октября 2019

Во-первых, вы, вероятно, путаете модель с наличием яблок в единственном числе.

BERT - это, прежде всего, языковая модель. Он интерпретирует предложения, используя логику предикатов, он моделирует, как используется язык. Использование языка - единственный обучающий сигнал, который у него есть. «У меня 2 яблока». и «У меня 3 яблока». - оба довольно естественные предложения, единственное отличие - число.

С другой стороны, «У меня 2,1 яблока». - очень необычное предложение. Люди не выражают количество яблок, используя числа с плавающей точкой. Это не то, как язык обычно используется, что отличает его от первых двух предложений.

0 голосов
/ 16 октября 2019

Языковые модели, включая BERT, обучены соответствовать предсказуемости токенов в строках. Следовательно, изученное представление не будет иметь ожидаемых свойств чисел. В конце концов, это непростая задача, если учесть различные единицы, пакеты и т. Д., Которые могут повлиять на то, как мы должны оценивать числа. Я рекомендую эту статью для дальнейшего обсуждения и исследования по этой теме:

Spithourakis, G. & Riedel, S. (2018, июль). Численность для языковых моделей: оценка и улучшение их способности прогнозировать числа. В материалах 56-го ежегодного собрания Ассоциации вычислительной лингвистики (том 1: длинные документы) (стр. 2104-2115). бумага ; хранилище кодов ;

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...