Балл BLEU равен , всегда вычисляется на полных токенах , в противном случае баллы BLEU не будут сопоставимы между моделями с разной сегментацией слов. Даже небольшие различия в токенизации могут сильно повлиять на итоговый счет. Это хорошо объяснено в недавней статье , в которой вводится SacreBLEU , которая в настоящее время используется в качестве стандартного инструмента для отчетности по баллам BLEU в научных статьях c.
При вычислении BLEU на подсловах BPE вместо слов оценка становится искусственно высокой. Даже если качество перевода довольно низкое, у моделей обычно нет проблем с получением правильных отдельных слов. Обычно он включается только в точности униграмм, но если слова разбиты на несколько подслов, это также увеличивает биграмму, триграмму и, возможно, также точность в 4 грамма.