У меня есть большой файл (europarl corpus), содержащий в каждой строке предложение на английском и немецком языках
Es gab Tote. They killed people.
Ich stimme Herrn Mayer in allem zu. I agree with everything Mr Mayer has said.
Выше две примерные строки. Мне просто нужно, для каждой строки, отделить каждое языковое предложение .
Как видите, предложения разделяются небольшим пробелом (я думаю, что это табуляция?), Состоящим из нескольких пробелов, проблема в том, что количество пробелов в файле несовместимо.
Кроме того, иногда английская версия полностью отсутствует