Можно ли сравнивать баллы Test BLEU между моделями NMT при использовании слегка модифицированных стандартных наборов тестов? - PullRequest
0 голосов
/ 22 апреля 2019

Я использую tst2013.en, найденный здесь , в качестве моих тестовых наборов, чтобы получить оценку BLEU Test для сравнения с другими предыдущими моделями. Однако я должен отфильтровать некоторые предложения длиннее 100 слов, иначе у меня не будет ресурса для запуска модели.

Но допустимо ли сравнивать результаты теста BLEU с немного модифицированными тестовыми наборами с другими моделями, использующими немодифицированные тестовые наборы?

1 Ответ

0 голосов
/ 23 апреля 2019

Нет, для сопоставимости результатов важно сохранять целевую сторону данных теста нетронутой. Удаление более длинных предложений, вероятно, дало бы вам несправедливый прирост в балле BLEU, потому что все системы имеют тенденцию работать хуже при более длинных предложениях.

Если ваша модель действительно не может обрабатывать предложения, длина которых превышает 100 слов (может быть, вы можете уменьшить размер пакета?), Правильное решение вашей проблемы:

  • обрезать сторону источника набора тестовых данных так, чтобы предложения имели длину не более 100 слов, не удаляйте их
  • перевести измененную исходную сторону набора данных
  • оценивает переводы с использованием неизменной цели стороны тестовых данных
...