Как использовать BLEU для сравнения вашей модели с существующими моделями? - PullRequest
0 голосов
/ 21 апреля 2019

Поэтому я использую метрику оценки BLEU для сравнения производительности моей модели NMT с существующими моделями. Однако мне интересно, сколько настроек мне нужно, чтобы соответствовать другим моделям.

Настройки, такие как наборы разработчика, тестовые наборы и гиперпараметры, я думаю, выполнимы. Тем не менее, этап предварительной обработки, который я использую, отличается от существующих моделей, и поэтому мне интересно, можно ли сравнить показатель BLEU моей модели с другими. Также есть вероятность, что существующие модели имеют скрытые параметры, о которых не сообщалось.

https://arxiv.org/pdf/1804.08771.pdf решает проблему сообщения BLEU и вызовов для переключения на SacreBLEU. Но многие существующие модели используют BLEU, поэтому я не думаю, что могу использовать метрику оценки SacreBLEU для моей модели.

1 Ответ

0 голосов
/ 23 апреля 2019

tl; dr

SacreBLEU - это не другой показатель, это реализация BLEU, поэтому то, что вы видите в документах как BLEU, должно быть сопоставимо с тем, что вы получаете от SacreBLEU.Используйте SacreBLEU, когда можете.

Краткая история оценки BLEU

Оценка BLEU очень чувствительна к токенизации, поэтому важно, чтобы все использовали один и тот же.Первоначально была реализация Perl с 2001 , которая долгое время считалась канонической реализацией BLEU.Использование скрипта сопряжено со многими трудностями (он написан на Perl, требует, чтобы данные были в довольно неясном формате SGM).Из-за этого (и потому, что оценка BLEU довольно проста) появилось много независимых реализаций, например, в MultEval , NLTK .Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных не дают одинаковых результатов.SacreBLEU может выполнять ту же работу по токенизации и получать те же оценки, что и исходный сценарий Perl, но читает данные в виде открытого текста и находится на языке Python, который в настоящее время чаще всего используется в машинном переводе.

...