О влиянии MASK i-го токена на предсказанные распределения i-го токена в моделях языка BERT с маской - PullRequest
1 голос
/ 25 сентября 2019

В документе XLNet объясняется, что метод маскировки имеет недостаток, поскольку только в моделях BERT используются токены с предварительной подготовкой, которые частично заменяются символами MASK (доля 15% ~ 20%), но в процессе тонкой настройки нетвход имеет замаскированный токен.

Мой первый вопрос:

Может ли предварительно обученные модели BERT с масками (чьи веса зафиксированы) выводить своего рода естественные распределения i-го токена, когдаi-й токен во входном предложении ЗАПИСАН?(Этот параметр не имеет смысла во всех приложениях для других задач НЛП, но я намерен понять роль MASK.)

Здесь маловероятный токен означает две схемы: первая - это неправдоподобие в корпусе перед тренировкой, такая какпредложение «Я кусаю собаку каждый день», в котором более вероятно предложение «Собака кусает меня вчера» или «Я ласкаю собаку каждый день»в соответствии со здравым смыслом, и второй шаблон грамматических ошибок, таких как «я купил молоко каждый день».вместо "я покупаю молоко каждый день".Итак, мой вопрос состоит в том, чтобы задавать вопрос, когда «Я маскирую собаку каждый день» и «Я бью собаку каждый день» вводятся в одну и ту же модель BERT с предварительной подготовкой с использованием больших корпусов со здравым смыслом и правильными грамматиками, а затем два соответствующих прогнозируемых распределения имеют существенно различную форму?

Если ответ на первый вопрос - да, то могу ли я проверить разницу распределений между необычным предложением и предложением, необычные токены которого маскируются через функцию расхождения KL этих двух предсказанных распределений?

...