Я понимаю, что критерии токенизации имеют решающее значение для баллов BLEU, которые вы получаете, но я не понимаю, почему я получаю противоречивые различия, когда сравниваю базовые баллы BLEU или баллы Custom BLEU.Позволь мне объяснить.
Например, я недавно обучил англо-датской пользовательской модели с обучающим набором около 300 тыс. Сегментов и тестовым набором или около 2 тыс. Сегментов.Когда я закончил, я получил базовое значение 34,63 и пользовательское значение 48,3.Просто для того, чтобы еще раз проверить эти оценки, я пересчитал оценки bleu модели «Результаты теста системы», загруженной с портала Custom Translator с помощью Moses tokenizer.perl и mult-bleu.perl, а с базовой моделью я получил оценку bleu34,16, но с моделью Custom я получаю 41,57.
Как вы объясните, что с базовой моделью я получаю результат, очень похожий на тот, который я получаю от Microsoft, но с пользовательской моделью я получаю балл примерно на семь баллов ниже, чем тот, который я получаю от Microsoft.Пример из Дании является лишь примером, но такое поведение я наблюдал на нескольких других языках.