Я пытаюсь перевести с английского на валлийский. У меня есть набор данных из 3032 предложений, который, как я знаю, ниже рекомендуемого предела в 10000, но проблема заключается в том, что в предложения или в конце перевода добавляются случайные слова.
Имея набор данных, я получаю балл BLEU 94,25.
Изображение различий в переводе
Я приложил четыре примера, где по форме добавляются дополнительные слова. Ни в одной точке набора данных нет дублирования слов, соответствующих любому из этих форматов, и в переводах нет запаздывающих пробелов, которые могли бы объяснить, почему именно «yn» появляется как новое предложение.
Есть ли способ удалить эти ошибочные лишние слова или повысить точность перевода? Увеличение общего количества предложений до более чем 10000 было бы очень большой задачей и не было бы чем-то, что нужно предпринять, если система все еще будет иметь высокий шанс возврата случайных слов.