Какие есть варианты для обработки текста, который был извлечен из PDF, чтобы удалить перенос текста / оправданный эффект - PullRequest
0 голосов
/ 29 июня 2019

Мне удалось извлечь текст из нескольких файлов PDF, но исходные файлы имели двухстрочный интервал в пределах одного столбца текста, который был перенесен или выровнен, поэтому мой извлеченный текст также имеет в пределах CR LF. Моя проблема в том, что текстовые предложения также содержат CR LF

игрушечный пример

This sentence continues

on this line. Next ....

Я не хочу потерять всю структуру пробелов, например, абзацы, так есть ли способ развернуть (не выровнять) текст, используя python, не удаляя все пробелы в документе или разумно соединяя строки обратно?

В конце концов я хочу проверить орфографию текста с помощью Spacy после дополнительной обработки текста, чтобы обработать не английский текст, но выровненный / завернутый текст может вызывать ошибки и затруднять обнаружение всего не английского текста.

...