Извлечение текста с использованием PDFPlumber, но результат в неупорядоченном формате - PullRequest
0 голосов
/ 13 марта 2020

Попытка извлечь данные из файлов PDF с помощью pdfplumber и заполнить информацию в Excel или pandas dataframe.

Однако, некоторая важная информация разбивается на 2 непоследовательные строки в процессе преобразования текста, что означает, что я не могу поймать их, используя Регулярное выражение.

например, вот то, что я получаю, используя pdfplumber

результат

исходный PDF например,

оригинал pdf

Как видно, «id» разбивается на 2 непоследовательные строки. (предположительно 9235890 и 23782605 соответственно)

Существуют ли какие-либо рекомендуемые python библиотеки, которые могут избежать такого рода разногласий?

Или я все еще могу собрать эти идентификаторы обратно с помощью регулярного выражения

...