tabula vs camelot для извлечения таблиц из PDF - PullRequest
0 голосов
/ 23 апреля 2020

Мне нужно извлечь таблицы из pdf, эти таблицы могут быть любого типа, с несколькими заголовками, вертикальными заголовками, горизонтальным заголовком и т. Д. c.

Я реализовал базовые сценарии использования c для обоих и я обнаружил, что табула работает немного лучше, чем Камелот, но не может точно определить все таблицы, и я не уверен, будет ли она работать для всех видов или нет.

Поэтому обращаюсь за советом к экспертам, которые внедрили подобный вариант использования. .

Примеры PDF-файлов: PDF1 PDF2 PDF3

Табула Реализация:

import tabula
tab = tabula.read_pdf('pdfs/PDF1.pdf', pages='all')
for t in tab:
    print(t, "\n=========================\n")

Камелот Реализация:

import camelot
tables = camelot.read_pdf('pdfs/PDF1.pdf', pages='all', split_text=True)
tables
for tabs in tables:
    print(tabs.df, "\n=================================\n")

1 Ответ

0 голосов
/ 24 апреля 2020

Пожалуйста, прочитайте это: https://camelot-py.readthedocs.io/en/master/#why -camelot

Основное преимущество Camelot заключается в том, что эта библиотека богата параметрами , с помощью которого вы можете улучшить извлечение.

Очевидно, что применение этих параметров требует некоторого изучения и различных попыток.

Здесь вы можете найти сравнение Камелота с другими PDF Библиотеки для извлечения таблиц.

...