Что я делаю
Я пишу скрипт для чтения PDF-файла, который содержит несколько таблиц. Таблицы содержат только горизонтальные линии для обозначения разных строк, но отсутствуют вертикальные линии. Используя опцию решетки tabula, я смог извлечь все строки, пока что все хорошо.
Пример кода:
tabula.read_pdf(path, lattice=True, multiple_tables=True, pages='all', guess=False)
pdf файл: образец pdf файла
Моя проблема
Моя проблема сейчас заключается в том, что мне все еще нужно разделить столбцы (что, кажется, работает с регулярным выражением). Tabula не распознает пробелы между столбцами (только внутри столбцов), поэтому строки просто склеиваются без пробелов. Пример: "column1: sometext1column2: sometext2" (пробел между sometext1 и column2 отсутствует)
То, что я пытался
Я пытался использовать Camelot-py, и он работает лучше, но похоже, чтовам нужно установить Ghostscript, и это не будет вариантом для целевой системы. Использование опции tabulas stream не работает для меня, похоже, есть проблемы с макетом pdf.