Мне удалось извлечь текст из нескольких файлов PDF, но исходные файлы имели двухстрочный интервал в пределах одного столбца текста, который был перенесен или выровнен, поэтому мой извлеченный текст также имеет в пределах CR
LF
. Моя проблема в том, что текстовые предложения также содержат CR
LF
игрушечный пример
This sentence continues
on this line. Next ....
Я не хочу потерять всю структуру пробелов, например, абзацы, так есть ли способ развернуть (не выровнять) текст, используя python, не удаляя все пробелы в документе или разумно соединяя строки обратно?
В конце концов я хочу проверить орфографию текста с помощью Spacy после дополнительной обработки текста, чтобы обработать не английский текст, но выровненный / завернутый текст может вызывать ошибки и затруднять обнаружение всего не английского текста.