tl; dr
SacreBLEU - это не другой показатель, это реализация BLEU, поэтому то, что вы видите в документах как BLEU, должно быть сопоставимо с тем, что вы получаете от SacreBLEU.Используйте SacreBLEU, когда можете.
Краткая история оценки BLEU
Оценка BLEU очень чувствительна к токенизации, поэтому важно, чтобы все использовали один и тот же.Первоначально была реализация Perl с 2001 , которая долгое время считалась канонической реализацией BLEU.Использование скрипта сопряжено со многими трудностями (он написан на Perl, требует, чтобы данные были в довольно неясном формате SGM).Из-за этого (и потому, что оценка BLEU довольно проста) появилось много независимых реализаций, например, в MultEval , NLTK .Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных не дают одинаковых результатов.SacreBLEU может выполнять ту же работу по токенизации и получать те же оценки, что и исходный сценарий Perl, но читает данные в виде открытого текста и находится на языке Python, который в настоящее время чаще всего используется в машинном переводе.