Скажем, у меня есть много китайских PDF-файлов:
На некоторых страницах файлов они содержат таблицы с тем же шаблоном, что и выше.
Итак, я хочу расположить и извлечь эти таблицы, затем прочитать как информационный кадр или объединить их вместе и сохранить как файл Excel.
Просто интересно, возможно ли это сделать в * 1025? * пакеты? Я пытался с pdfminer
, tika
, tabula
, et c, но не повезло.
Поскольку формат PDF не имеет внутреннего представления структуры таблицы, что затрудняет извлечение таблиц для анализа. Поэтому я думаю, что может быть необходимо преобразовать эти файлы в изображения, а затем использовать распознавание изображений в этом случае.
Ссылка:
https://excalibur-py.readthedocs.io/en/master/