Извлечение строковых данных из многостраничных столбцов PDF с помощью Python - PullRequest
0 голосов
/ 02 сентября 2018

У меня есть несколько PDF-файлов, которые организованы в столбцы, которые мне нужно почистить. Проблема заключается в том, что каждый столбец является многостраничным и не входит в типичный макет столбцов, например:

******Column 1******************Column 2*************

Sombody once told me Finger and her thumb The world was gonna In the shape of an "L" Roll me. I ain't the On her forehead. Well *******************NEXT PAGE************************** Sharpest tool in the The years start coming Shed. She was looking And they don't stop coming Kind of dumb with her

Я попытался использовать стандартные скребки PDF, такие как PDFMiner, но он просто вернет строку, которая выглядит следующим образом:

Кто-то однажды сказал мне
Мир собирался
Катай меня Я не
Палец и ее большой палец

Буду признателен за любую помощь!

...