Какую библиотеку Python мы должны использовать для извлечения таблицы со сложными заголовками из PDF? - PullRequest
0 голосов
/ 10 июня 2019

Я пытался использовать много библиотек для извлечения таблиц из PDF, таких как: camelot, tabula, PDFPlumber, PDFTabExtract ... но они не дают хорошего результата.Основная проблема в том, что заголовки находятся в сложном формате, а у меня другой формат заголовков.

с камелотом. У меня не может быть сценария, который работает для всех страниц моего PDF.с Табулой я получил запутанный информационный фрейм, когда таблица имеет повернутый текстовый заголовок.с PDFPlumber у меня возникла проблема с таблицей потоков (она хорошо работает только для таблицы решетки), а с PDFTabExtract у меня возникла проблема, когда текст поворачивается, он игнорируется.

есть ли решение, в которое я могу преобразовать любоетаблица в моем PDF, который имеет другой формат?я знаю, что не могу найти универсальное решение, но, по крайней мере, что-то, что дает достойный результат.

Должен ли я работать с OCR?чтобы вы посоветовали ?

Я действительно ценю любой результат.заранее спасибо. enter image description here enter image description here

1 Ответ

0 голосов
/ 10 июня 2019

PDF не имеет специального метода для описания таблиц.Таблицы создаются путем манипулирования расстоянием между фрагментами текста.Извлечение текста из таблиц PDF основано на идентификации структуры, подобной таблице, путем анализа этих расстояний.

Поскольку обнаружение не является детерминированным (например, как таблица в файле docx), каждое упомянутое вами решение имеет свою собственную эвристику в отношении того, как обнаруживать таблицы и текст.Каждый метод со своими плюсами и минусами.Сложная таблица, такая как та, что вы привели в качестве примера, обязательно даст плохие результаты в большинстве или во всех экстракторах текста PDF.

OCR, вероятно, идентифицирует таблицу аналогичным образом и даст аналогичные результаты.

...