При использовании tabula для чтения таблицы в формате pdf и ее сохранения в виде Pandas DataFrame, когда я печатаю DataFrame, создается впечатление, что заголовки столбцов таблицы пропускаются, но данные извлекаются, как и ожидалось.Как вы можете видеть ниже:
Фрагмент заголовка таблицы PDF Выделенные желтым цветом элементы не обнаруживаются Табулой, но данные (выделение черным цветом) равны.
for pdf_page_number in range(1,pdf_pages+1):
print("page:", pdf_page_number, "- out of:",pdf_pages, "---")
try:
df = read_pdf(pdf_location, pages=pdf_page_number)
print(df)
Примечание: Я не могу вносить какие-либо конкретные изменения в это извлечение PDF-файла (т. Е. Сделать так, чтобы таблица смотрела на определенную часть страницы), так как это не единственная таблица PDF, с которой я буду работать и которая мне понадобитсяуниверсальное решение!