Не обнаруживающие столбцы - PullRequest
1 голос
/ 28 июня 2019

Я анализировал банковскую выписку с использованием tabula-py, в которой столбцы разделены вертикальными полями, а строки не разделены. поэтому я использую режим потока , но если на какой-либо странице нет записи ни для одного столбца, то таблица объединяет их в один для кода

tables=tabula.read_pdf("pdfname.pdf",pages='all')

Поэтому я использую параметр столбцов , чтобы вручную выбрать столбцы

tables=tabula.read_pdf("pdfname.pdf",pages='all',columns= ['27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0'])

но это ничего не значит как табула даже не читает опции вывод такой же, как и предыдущий Извините, я не могу опубликовать таблицу в целях конфиденциальности.

[мои таблицы чем-то похожи Вы можете проверить изображение на https://i.stack.imgur.com/f40V0.png]

Ответы [ 2 ]

0 голосов
/ 10 июля 2019

Насколько я знаю, tabula-py - это просто оболочка tabula-java, поэтому точность извлечения такая же, как у приложения tabula.Попробуйте вместо PDFplumber .

0 голосов
/ 29 июня 2019

Ключевым аргументом columns должен быть массив чисел:

tables = tabula.read_pdf("pdfname.pdf",
                         pages='all',
                         columns=[27.0,68.0,272.0,357.5,397.0,474.5,553.0,631.0])
...