Как извлечь таблицу из PDF-файла с помощью pymupdf - PullRequest
0 голосов
/ 15 мая 2019

Мои рабочие требования я использую pymupdf для извлечения таблиц из файлов PDF и экспорта в формат CSV.

1 Ответ

0 голосов
/ 15 мая 2019

Боюсь, вам не повезло.Формат PDF не имеет внутреннего представления структуры таблицы, что затрудняет извлечение таблиц для анализа.Вы должны сделать вывод о существовании таблицы, увидев, где расположены столбцы данных.

Есть модули, которые сделают это за вас: один - Excalibur .Но pymupdf - это извлечение текста из текста, и вам придется заниматься анализом и выводом самостоятельно.Это довольно амбициозный проект.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...