Следует ли рассчитывать балл BLEU для подслова NMT по подсловам или они должны быть объединены первыми? - PullRequest
0 голосов
/ 08 января 2020

Это не было слишком ясно в газетах, которые я читал. Когда модель обучается на двуязычном корпусе, который был разбит на подслова, например, с помощью кодирования байтовой пары, является ли стандартным вычисление показателя BLEU на выходах подслов или на полных словах после объединения подслов?

1 Ответ

1 голос
/ 09 января 2020

Балл BLEU равен , всегда вычисляется на полных токенах , в противном случае баллы BLEU не будут сопоставимы между моделями с разной сегментацией слов. Даже небольшие различия в токенизации могут сильно повлиять на итоговый счет. Это хорошо объяснено в недавней статье , в которой вводится SacreBLEU , которая в настоящее время используется в качестве стандартного инструмента для отчетности по баллам BLEU в научных статьях c.

При вычислении BLEU на подсловах BPE вместо слов оценка становится искусственно высокой. Даже если качество перевода довольно низкое, у моделей обычно нет проблем с получением правильных отдельных слов. Обычно он включается только в точности униграмм, но если слова разбиты на несколько подслов, это также увеличивает биграмму, триграмму и, возможно, также точность в 4 грамма.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...