Позиция и извлечение таблицы из файла PDF в Python - PullRequest
0 голосов
/ 30 апреля 2020

Скажем, у меня есть много китайских PDF-файлов:

На некоторых страницах файлов они содержат таблицы с тем же шаблоном, что и выше.

Итак, я хочу расположить и извлечь эти таблицы, затем прочитать как информационный кадр или объединить их вместе и сохранить как файл Excel.

Просто интересно, возможно ли это сделать в * 1025? * пакеты? Я пытался с pdfminer, tika, tabula, et c, но не повезло.

Поскольку формат PDF не имеет внутреннего представления структуры таблицы, что затрудняет извлечение таблиц для анализа. Поэтому я думаю, что может быть необходимо преобразовать эти файлы в изображения, а затем использовать распознавание изображений в этом случае.

Ссылка:

https://excalibur-py.readthedocs.io/en/master/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...