Табула объединяет несколько столбцов и рассматривает их как один столбец - PullRequest
0 голосов
/ 08 октября 2018

У меня есть таблица, извлекающая таблицу PDF и выводящая как DataFrame, однако, некоторые случаи извлечения, кажется, объединяют первый столбец (имена строк) со следующими столбцами.См. Ниже:

Извлечение, в котором столбец 1 объединен со столбцом 2

Фрагмент таблицы PDF - очевидно, два отдельных столбца

Как вы можетекак видно из рисунков выше, данные из одного столбца были размещены как часть первого столбца и рассматриваются как один столбец, а не как два.Существует ли универсальное решение этой проблемы, так как это не единственное извлечение таблицы PDF, в котором возникла эта проблема.

for pdf_page_number in range(1,pdf_pages+1):
    print("page:", pdf_page_number, "- out of:",pdf_pages, "--")
    try:
        df = read_pdf(pdf_location, pages=pdf_page_number)
        print(df)
        my_extracted_table, original_df = UltimateExtraxtor(df, financials_to_search, products_to_search)
...