Tabula-Py недостающие пробелы - PullRequest
0 голосов
/ 25 октября 2019

Что я делаю

Я пишу скрипт для чтения PDF-файла, который содержит несколько таблиц. Таблицы содержат только горизонтальные линии для обозначения разных строк, но отсутствуют вертикальные линии. Используя опцию решетки tabula, я смог извлечь все строки, пока что все хорошо.

Пример кода:

tabula.read_pdf(path, lattice=True, multiple_tables=True, pages='all', guess=False)

pdf файл: образец pdf файла

Моя проблема

Моя проблема сейчас заключается в том, что мне все еще нужно разделить столбцы (что, кажется, работает с регулярным выражением). Tabula не распознает пробелы между столбцами (только внутри столбцов), поэтому строки просто склеиваются без пробелов. Пример: "column1: sometext1column2: sometext2" (пробел между sometext1 и column2 отсутствует)

То, что я пытался

Я пытался использовать Camelot-py, и он работает лучше, но похоже, чтовам нужно установить Ghostscript, и это не будет вариантом для целевой системы. Использование опции tabulas stream не работает для меня, похоже, есть проблемы с макетом pdf.

...