Мне нужно извлечь таблицы из pdf, эти таблицы могут быть любого типа, с несколькими заголовками, вертикальными заголовками, горизонтальным заголовком и т. Д. c.
Я реализовал базовые сценарии использования c для обоих и я обнаружил, что табула работает немного лучше, чем Камелот, но не может точно определить все таблицы, и я не уверен, будет ли она работать для всех видов или нет.
Поэтому обращаюсь за советом к экспертам, которые внедрили подобный вариант использования. .
Примеры PDF-файлов: PDF1 PDF2 PDF3
Табула Реализация:
import tabula
tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all')
for t in tab:
print(t, "\n=========================\n")
Камелот Реализация:
import camelot
tables = camelot.read_pdf('pdfs/PDF1.pdf', pages='all', split_text=True)
tables
for tabs in tables:
print(tabs.df, "\n=================================\n")