Как пары повторяющихся предложений влияют на параллельный корпус и модель перевода? - PullRequest
0 голосов
/ 21 июня 2019

Я работаю над парой языков с низким ресурсом, и доступный параллельный корпус очень шумный. При очистке данных я обнаружил, что в корпусе много пар повторяющихся предложений. Предложения выровнены в отдельных файлах правильно, но есть повторы. Я начал с удаления повторений, но задумался о влиянии таких повторений.

Итак, какие эффекты эти данные оказывают на модель NMT? Должен ли я удалить повторы (что я намерен сделать)?

Я работаю с моделью Transformer (внимание - это все, что вам нужно, Vaswani et al). У меня около 100000 параллельных предложений.

Я ожидаю, что в модели не произойдет никаких изменений, поскольку она снова увидит те же предложения. Но я также думаю, что модель может стать немного лучше?

...