Question

Скажем, у меня есть много китайских PDF-файлов:

На некоторых страницах файлов они содержат таблицы с тем же шаблоном, что и выше.

Итак, я хочу расположить и извлечь эти таблицы, затем прочитать как информационный кадр или объединить их вместе и сохранить как файл Excel.

Просто интересно, возможно ли это сделать в * 1025? * пакеты? Я пытался с pdfminer, tika, tabula, et c, но не повезло.

Поскольку формат PDF не имеет внутреннего представления структуры таблицы, что затрудняет извлечение таблиц для анализа. Поэтому я думаю, что может быть необходимо преобразовать эти файлы в изображения, а затем использовать распознавание изображений в этом случае.

Ссылка:

https://excalibur-py.readthedocs.io/en/master/

Позиция и извлечение таблицы из файла PDF в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Позиция и извлечение таблицы из файла PDF в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов