Я работаю над парой языков с низким ресурсом, и доступный параллельный корпус очень шумный. При очистке данных я обнаружил, что в корпусе много пар повторяющихся предложений. Предложения выровнены в отдельных файлах правильно, но есть повторы. Я начал с удаления повторений, но задумался о влиянии таких повторений.
Итак, какие эффекты эти данные оказывают на модель NMT? Должен ли я удалить повторы (что я намерен сделать)?
Я работаю с моделью Transformer (внимание - это все, что вам нужно, Vaswani et al). У меня около 100000 параллельных предложений.
Я ожидаю, что в модели не произойдет никаких изменений, поскольку она снова увидит те же предложения. Но я также думаю, что модель может стать немного лучше?