Tabula не извлекает заголовки столбцов таблицы PDF - PullRequest
0 голосов
/ 08 октября 2018

При использовании tabula для чтения таблицы в формате pdf и ее сохранения в виде Pandas DataFrame, когда я печатаю DataFrame, создается впечатление, что заголовки столбцов таблицы пропускаются, но данные извлекаются, как и ожидалось.Как вы можете видеть ниже:

Фрагмент заголовка таблицы PDF

Выделенные желтым цветом элементы не обнаруживаются Табулой, но данные (выделение черным цветом) равны.

for pdf_page_number in range(1,pdf_pages+1):
    print("page:", pdf_page_number, "- out of:",pdf_pages, "---")
    try:
        df = read_pdf(pdf_location, pages=pdf_page_number)
        print(df)

Примечание: Я не могу вносить какие-либо конкретные изменения в это извлечение PDF-файла (т. Е. Сделать так, чтобы таблица смотрела на определенную часть страницы), так как это не единственная таблица PDF, с которой я буду работать и которая мне понадобитсяуниверсальное решение!

...