Можете ли вы объяснить, как вы рассчитываете базовые и пользовательские баллы BLEU? - PullRequest
0 голосов
/ 01 апреля 2019

Я понимаю, что критерии токенизации имеют решающее значение для баллов BLEU, которые вы получаете, но я не понимаю, почему я получаю противоречивые различия, когда сравниваю базовые баллы BLEU или баллы Custom BLEU.Позволь мне объяснить.

Например, я недавно обучил англо-датской пользовательской модели с обучающим набором около 300 тыс. Сегментов и тестовым набором или около 2 тыс. Сегментов.Когда я закончил, я получил базовое значение 34,63 и пользовательское значение 48,3.Просто для того, чтобы еще раз проверить эти оценки, я пересчитал оценки bleu модели «Результаты теста системы», загруженной с портала Custom Translator с помощью Moses tokenizer.perl и mult-bleu.perl, а с базовой моделью я получил оценку bleu34,16, но с моделью Custom я получаю 41,57.

Как вы объясните, что с базовой моделью я получаю результат, очень похожий на тот, который я получаю от Microsoft, но с пользовательской моделью я получаю балл примерно на семь баллов ниже, чем тот, который я получаю от Microsoft.Пример из Дании является лишь примером, но такое поведение я наблюдал на нескольких других языках.

1 Ответ

0 голосов
/ 02 апреля 2019

Не могли бы вы связаться с нами по псевдониму поддержки custommt? Я хотел бы увидеть ваши тестовые данные и определить причину такой резкой разницы.

...