как извлечь таблицы из PDF с помощью камелота? - PullRequest
0 голосов
/ 27 мая 2020

Я хочу извлечь все таблицы из pdf, используя камелот в python 3.

import camelot
# PDF file to extract tables from
file = "./pdf_file/ooo.pdf"
tables = camelot.read_pdf(file)
# number of tables extracted
print("Total tables extracted:", tables.n)
# print the first table as Pandas DataFrame
print(tables[0].df)
# export individually
tables[0].to_csv("./pdf_file/ooo.csv")

, а затем я получаю только 1 таблицу с 1-й страницы pdf. как извлечь целые таблицы из pdf файла ??

1 Ответ

0 голосов
/ 29 мая 2020
tables = camelot.read_pdf(file, pages='1-end')

Если параметр pages не указан, Camelot анализирует только первую страницу. Для лучшего объяснения см. официальную документацию .

...