У меня есть таблица, извлекающая таблицу PDF и выводящая как DataFrame, однако, некоторые случаи извлечения, кажется, объединяют первый столбец (имена строк) со следующими столбцами.См. Ниже:
Извлечение, в котором столбец 1 объединен со столбцом 2 Фрагмент таблицы PDF - очевидно, два отдельных столбца
Как вы можетекак видно из рисунков выше, данные из одного столбца были размещены как часть первого столбца и рассматриваются как один столбец, а не как два.Существует ли универсальное решение этой проблемы, так как это не единственное извлечение таблицы PDF, в котором возникла эта проблема.
for pdf_page_number in range(1,pdf_pages+1):
print("page:", pdf_page_number, "- out of:",pdf_pages, "--")
try:
df = read_pdf(pdf_location, pages=pdf_page_number)
print(df)
my_extracted_table, original_df = UltimateExtraxtor(df, financials_to_search, products_to_search)