Я использую Python (3.8.1) и tabula-py (2.1.0) (https://tabula-py.readthedocs.io/en/latest/tabula.html#tabula .io.build_options ) для извлечения таблиц из текстового PDF-файла (ежемесячно *) 1028 * отчет по оплате).
Ниже показан образец файла PDF (внизу 1-й страницы и верх 2-й страницы).
Сценарий Python показан ниже:
from tabula import read_pdf
from tabulate import tabulate
df = read_pdf(
"my_report.pdf",
output_format="dataframe",
multiple_tables=True,
pages="all",
silent=True,
# TODO: area = (x_left, x_right, y_left, y_right) # ?
)
print(tabulate(df))
, который генерирует следующий вывод:
--- --------------------------------------------------------------------------- --------------------- ---------
0 region nan nan
1 AWS CloudTrail APS2-PaidEventsRecorded nan $3.70
2 0.00002 per paid event recorded in Asia Pacific (Sydney) 184,961.000 Events $3.70
3 region nan nan
4 Asia Pacific (Tokyo) nan $3.20
Я думаю, что параметр области должен быть правильно установлен, поскольку верхние и левые данные иногда опускаются. Так ли это, и если да, то как найти правильную область всех табличных данных в файле PDF?
Заранее спасибо.