Попытка извлечь данные из файлов PDF с помощью pdfplumber и заполнить информацию в Excel или pandas dataframe.
Однако, некоторая важная информация разбивается на 2 непоследовательные строки в процессе преобразования текста, что означает, что я не могу поймать их, используя Регулярное выражение.
например, вот то, что я получаю, используя pdfplumber
результат
исходный PDF например,
оригинал pdf
Как видно, «id» разбивается на 2 непоследовательные строки. (предположительно 9235890 и 23782605 соответственно)
Существуют ли какие-либо рекомендуемые python библиотеки, которые могут избежать такого рода разногласий?
Или я все еще могу собрать эти идентификаторы обратно с помощью регулярного выражения