Question

Это не было слишком ясно в газетах, которые я читал. Когда модель обучается на двуязычном корпусе, который был разбит на подслова, например, с помощью кодирования байтовой пары, является ли стандартным вычисление показателя BLEU на выходах подслов или на полных словах после объединения подслов?

Jindřich · Answer 1 · 09 января 2020

Балл BLEU равен , всегда вычисляется на полных токенах , в противном случае баллы BLEU не будут сопоставимы между моделями с разной сегментацией слов. Даже небольшие различия в токенизации могут сильно повлиять на итоговый счет. Это хорошо объяснено в недавней статье , в которой вводится SacreBLEU , которая в настоящее время используется в качестве стандартного инструмента для отчетности по баллам BLEU в научных статьях c.

При вычислении BLEU на подсловах BPE вместо слов оценка становится искусственно высокой. Даже если качество перевода довольно низкое, у моделей обычно нет проблем с получением правильных отдельных слов. Обычно он включается только в точности униграмм, но если слова разбиты на несколько подслов, это также увеличивает биграмму, триграмму и, возможно, также точность в 4 грамма.

Следует ли рассчитывать балл BLEU для подслова NMT по подсловам или они должны быть объединены первыми?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Следует ли рассчитывать балл BLEU для подслова NMT по подсловам или они должны быть объединены первыми?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы