Я пытаюсь извлечь таблицу из PDF. Табула помогла мне извлечь таблицы из PDF.
В настоящее время с какой проблемой я сталкиваюсь, если какая-либо таблица, охватывающая несколько страниц, Tabula рассматривает каждое новое содержимое таблицы страниц как новую таблицу.
Есть ли способ или логика, чтобы преодолеть эту проблему?
Код:
from tabula import read_pdf
df = read_pdf("SampleTableFormat2pages.pdf", multiple_tables=True, pages="all")
print len(df)
print df
выход
2
[ 0 1 2 3 4
0 Label1 Label2 Label3 Label4 Label5
1 Row11 Row12 Row13 Row14 Row15
2 Row21 Row22 Row23 Row24 Row25
3 Row31 Row32 Row33 Row34 Row35, 0 1 2 3 4
0 Row41 Row42 Row43 Row44 Row45
1 Row51 Row52 Row53 Row54 Row55]
Любая логика, чтобы интерпретировать Табулу, чтобы понять границы таблицы и охват следующей страницы?
ИЛИ любая другая библиотека, которая может помочь в этом?