У меня есть параллельный переведенный корпус на английском-французском (text.en, text.fr), каждый текст содержит около 500K строк (предложения в исходном и целевом языках).что я хочу, это: 1- удалить дублированные строки в обоих текстах с помощью команды python;и избегайте проблем с выравниванием в обоих файлах.Например: команда удалила строку 32 в text.en, а затем, конечно, удалила ее в text.fr.2. Затем разделите оба файла на данные Train / Dev / Test, только 1K для разработчика и 1K для теста, а остальные для поезда.Мне нужно разделить text.en и text.fr, используя одну и ту же команду, чтобы я мог сохранить выравнивание и соответствующие предложения в обоих файлах.Было бы лучше, если бы я мог извлекать тестовые данные и разрабатывать данные случайным образом, это поможет получить лучшие результаты.Как я могу это сделать?пожалуйста, напишите команды.Я ценю любую помощь, спасибо!