Microsoft Translate Добавление дополнительных слов к переводу - PullRequest
0 голосов
/ 29 октября 2018

Я пытаюсь перевести с английского на валлийский. У меня есть набор данных из 3032 предложений, который, как я знаю, ниже рекомендуемого предела в 10000, но проблема заключается в том, что в предложения или в конце перевода добавляются случайные слова.

Имея набор данных, я получаю балл BLEU 94,25.

Изображение различий в переводе

Я приложил четыре примера, где по форме добавляются дополнительные слова. Ни в одной точке набора данных нет дублирования слов, соответствующих любому из этих форматов, и в переводах нет запаздывающих пробелов, которые могли бы объяснить, почему именно «yn» появляется как новое предложение.

Есть ли способ удалить эти ошибочные лишние слова или повысить точность перевода? Увеличение общего количества предложений до более чем 10000 было бы очень большой задачей и не было бы чем-то, что нужно предпринять, если система все еще будет иметь высокий шанс возврата случайных слов.

1 Ответ

0 голосов
/ 30 октября 2018

Я также поднял это как запрос в службу поддержки Microsoft. Они сказали, что проблема заключается в использовании словаря, который включает глаголы как часть перевода.

С тех пор я пытался использовать английский Великобритания в качестве основы для перевода - вариант, который ранее не удалось построить - и с тем же набором данных оценка BLEU составляет 93,24, но лишние слова исчезли.

Моя проблема была решена, и теперь она сводится к обучению неправильным переводам. Похоже, что в англо-валлийском переводе есть ошибка.

...